科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训资讯:大数据的处理方式到底有多“流批”?

各位了解大数据或者正在参加大数据培训的小伙伴们是不是听说过大数据处理方式:流处理和批处理呢?合起来听可真不得了“流批”处理,那么这个流处理和批处理到底是什么意思呢

各位了解大数据或者正在参加大数据培训的小伙伴们是不是听说过大数据处理方式:流处理和批处理呢?合起来听可真不得了“流批”处理,那么这个流处理和批处理到底是什么意思呢?

大数据分析是在强大的支撑平台上运行分析算法发现隐藏在大数据中潜在价值的过程,例如隐藏的模式(pattern)和未知的相关性。根据处理时间的需求,大数据的分析处理可以分为两类。

大数据培训资讯:大数据的处理方式到底有多“流批”?

•流处理:即流式处理。流式处理假设数据的潜在价值是数据的新鲜度(freshness),因此流式处理方式应尽可能快地处理数据并得到结果。在这种方式下,数据以流的方式到达。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。流处理理论和技术已研究多年,代表性的开源系统包括Storm,S4和Kafka。流处理方式用于在线应用,通常工作在秒或毫秒级别。

•批处理:在批处理方式中,数据首先被存储,随后被分析。MapReduce是非常重要的批处理模型。MapReduce的核心思想是,数据首先被分为若干小数据块chunks,随后这些数据块被并行处理并以分布的方式产生中间结果,最后这些中间结果被合并产生最终结果。MapReduce分配与数据存储位置距离较近的计算资源,以避免数据传输的通信开销。由于简单高效,MapReduce被广泛应用于生物信息、web挖掘和机器学习中。

通常情况下,流处理适用于数据以流的方式产生且数据需要得到快速处理获得大致结果。因此流处理的应用相对较少,大部分应用都采用批处理方式。一些研究也试图集成两种处理方式的优点。

大数据平台可以选择不同的处理方式,但是两种处理方式的不同将给相关的平台带来体系结构上的不同。例如,基于批处理的平台通常能够实现复杂的数据存储和管理,而基于流处理的平台则不能。在实际应用中,可以根据数据特性和应用需求订制大数据平台。本文将主要针对基于批处理的大数据平台进行探讨。

看到这里,是不是觉得大数据的处理方式确实挺“流批”的呢?更多大数据培训资讯,关注科多大数据就能一键了解哦。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢