Quantcast
Channel: CodeSection,代码区,数据库(综合) - CodeSec
Viewing all articles
Browse latest Browse all 6262

中软卓越大数据培训:你的iOS项目适合这个框架吗?

$
0
0

大数据框架多种多样,但是不同类型的框架优点不同,针对解决的问题也不一样。每个框架都有自己的性格和爱好,如何选择,怎样判断你的项目用哪个框架更合适,是一个重要问题,因为这关系到程序运行和用户体验,甚至是决定项目成败的关键因素。中软卓越大数据开发培训提示:了解每种框架的特点,很有必要!今天重点跟大家介绍批处理框架Apache Hadoop。


中软卓越大数据培训:你的iOS项目适合这个框架吗?

批处理系统

批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:

有界:批处理数据集代表数据的有限集合

持久:数据通常始终存储在某种类型的持久存储位置中

大量:批处理操作通常是处理极为海量数据集的唯一方法

中软卓越大数据开发培训认为,批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集,或首先将数据集载入内存,批处理系统在设计过程中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。

大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较高的场合。

Apache Hadoop


中软卓越大数据培训:你的iOS项目适合这个框架吗?

Apache Hadoop是一种专用于批处理的处理框架。Hadoop是首个在开源社区获得极大关注的大数据框架。基于谷歌有关海量数据处理所发表的多篇论文与经验的Hadoop重新实现了相关算法和组件堆栈,让大规模批处理技术变得更易用。

新版Hadoop包含多个组件,即多个层,通过配合使用可处理批数据:

HDFS:HDFS是一种分布式文件系统层,可对集群节点间的存储和复制进行协调。HDFS确保了无法避免的节点故障发生后数据依然可用,可将其用作数据来源,可用于存储中间态的处理结果,并可存储计算的最终结果。

YARN:YARN是Yet Another Resource Negotiator(另一个资源管理器)的缩写,可充当Hadoop堆栈的集群协调组件。该组件负责协调并管理底层资源和调度作业的运行。通过充当集群资源的接口,YARN使得用户能在Hadoop集群中使用比以往的迭代方式运行更多类型的工作负载。

MapReduce:MapReduce是Hadoop的原生批处理引擎。

批处理模式

Hadoop的处理功能来自MapReduce引擎。MapReduce的处理技术符合使用键值对的map、shuffle、reduce算法要求。基本处理过程包括:

● 从HDFS文件系统读取数据集

● 将数据集拆分成小块并分配给所有可用节点

● 针对每个节点上的数据子集进行计算(计算的中间态结果会重新写入HDFS)

● 重新分配中间态结果并按照键进行分组

● 通过对每个节点计算的结果进行汇总和组合对每个键的值进行“Reducing”

● 将计算而来的最终结果重新写入 HDFS

优势和局限

中软卓越大数据开发培训提示,由于这种方法严重依赖持久存储,每个任务需要多次执行读取和写入操作,因此速度相对较慢。但另一方面由于磁盘空间通常是服务器上最丰富的资源,这意味着MapReduce可以处理非常海量的数据集。同时也意味着相比其他类似技术,Hadoop的MapReduce通常可以在廉价硬件上运行,因为该技术并不需要将一切都存储在内存中。MapReduce具备极高的缩放潜力,生产环境中曾经出现过包含数万个节点的应用。

MapReduce的学习曲线较为陡峭,虽然Hadoop生态系统的其他周边技术可以大幅降低这一问题的影响,但通过Hadoop集群快速实现某些应用时依然需要注意这个问题。

围绕Hadoop已经形成了辽阔的生态系统,Hadoop集群本身也经常被用作其他软件的组成部件。很多其他处理框架和引擎通过与Hadoop集成也可以使用HDFS和YARN资源管理器。

总结

中软卓越大数据开发培训认为,Apache Hadoop及其MapReduce处理引擎提供了一套久经考验的批处理模型,最适合处理对时间要求不高的非常大规模数据集。通过非常低成本的组件即可搭建完整功能的Hadoop集群,使得这一廉价且高效的处理技术可以灵活应用在很多案例中。与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础。

大数据处理框架选择要慎重,对症下药才能收到良好的疗效。主流的、经常用的框架还有很多,本次先介绍Hadoop,接下来中软卓越大数据开发培训将逐一为大家介绍每种框架的特点和应用,希望能够对励志于从事大数据开发岗位的同学有所帮助。

中软卓越IT培训依托于母公司中软国际,拥有强大的技术支持后盾,国内外、各行各业合作名企众多,为学员的就业提供高质量保证。中软卓越大数据培训欢迎你的到来,不仅教你一时技能,更还你一生财富!


中软卓越大数据培训:你的iOS项目适合这个框架吗?

Viewing all articles
Browse latest Browse all 6262

Trending Articles