科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 >

大数据培训资讯:Hadoop的大数据挖掘平台介绍

hadoop是大数据培训领域中应用最常见的之一。为便于对大数据挖掘进行具体的分析,本文通过构建融合多功能的Hadoop大数据挖掘平台来了解各个处理环节。

基于Hadoop的大数据挖掘平台

hadoop是大数据培训领域中应用最常见的之一。为便于对大数据挖掘进行具体的分析,科多大数据通过构建融合多功能的Hadoop大数据挖掘平台来了解各个处理环节。基于Hadoop平台融合多功能的大数据挖掘,分为数据源、大数据挖掘平台、用户层3层。数据源是由结构、半结构、非结构数据所形成的复杂处理对象;大数据挖掘平台则是基于Hadoop融合多种计算模式和分析、挖掘等功能并结合实时数据的特征进行相应地处理;用户层则是以交互的方式进行系统认知与接受服务。
大数据挖掘平台中,以HDFS、HBase、MapReduce为核心的Hadoop具有高可靠性、高扩展性、高容错性和高效性,计算模式以批处理和流处理为主,其中的MapReduce适合于体量巨大且更新率低的静态数据的批处理,Flume、Pig等则对数据流的动态处理有一定的可伸缩性。然而,Hadoop不适宜处理小量的低延迟数据和复杂关系的图数据,且难以支持内存计算。对此,在构建此系统时,传统的数据库及处理工具、图并行计算PowerGraph及内存计算Spark等被融入Hadoop平台。如此,传统结构数据可借助分布式存储及计算技术提高查询处理的速率,半结构和非结构数据可借助内存计算和图计算等实现复杂数据快速实时地处理。基于Hadoop平台的大数据挖掘依赖强大的支撑技术,相应的功能则丰富而多样。为具体了解其内部工作流程,科多大数据小编从数据预处理、数据存储、数据计算与分析、数据展示4方面结合传统数据挖掘来分析大数据挖掘各阶段的处理方法、特征及性能。
 
大数据培训资讯:Hadoop的大数据挖掘平台介绍

数据预处理

传统的数据挖掘先有模式后有数据,通过既定的模式,采用如ETL、DBPut等工具及查询、更新等驱动方法进行静态数据的预处理,其注重维护数据的完整性、准确性,处理的数据质量较高。而大数据挖掘先有数据后有模式,不是预先确定某种模式,而是随着数据的变化不确定性模型不断地变化。大数据预处理主要是基于MapReduce融入传统预处理技术、数据流实时处理、多模态实体识别、DeepWeb集成及远程自动采集融合等技术,来提高预处理过程中并行计算、迭代计算、数据合并及共享等能力,如利用Flume或Sqoop等流式计算技术和嵌入式中间件多级数据处理技术进行数据的传输迁移,实现对历史数据及数据流同步处理,提高数据即时处理效率。但由于大数据的处理较关注数据间的关联关系而不注重因果联系,同时较关注数据处理的实时性而不注重完整性和精确性,重数据轻模型,导致处理后的大数据质量不佳,挖掘结果的准确度及可信度不高,如2013年谷歌利用大数据进行流感的预测呈现的高出错率。

数据存储

传统数据挖掘的存储管理以数据仓库、操作数据库系统和文件系统等关系数据库系统为主,主要采用行存储的方式将静态、确定的结构化数据以E-R(实体和联系)或多维的数据模型存储,存储较为被动且存取方式随机,具体的模式一般由系统内部定义,灵活性和可扩展性较差,对事务ACID(Atomicity、Consistency、Isolation、Durability)特性要求较高,容错能力不强。而大数据挖掘的存储除包括传统的数据存储外,还包括分布式存储,可存储结构、半结构及非结构数据,存储策略以列存储或行列混合存储为主,且模式一般由外部实现,通常不支持ACID特性而支持BASE(BasicallyAvailable、SoftState、EventuallyConsistent)特性且相比关系数据库其支持的功能有限。例如,Google开发的Bigtable采用列存储的方式,并以新数据模型OrderedTable存储数据,模式灵活简单,具有很强的可扩展性,但数据一致性及兼容关系数据模型存在问题。对此,Spanner系统则通过支持同步跨数据中心的复制和可视分片及提供SQL用户接口,有效实现了高可扩展性与ACID特性的融合。此外,对于不确定数据,大数据存储有相应的不确定数据库管理系统、不确定数据世系管理技术等,数据以不确定关系模型存储,存储方式直接且严格先后次序,并且可基于内存而非磁盘构建概要数据结构,实现动态、不确定数据的直接存储处理。

数据计算与分析

相比于传统数据挖掘以数据移向计算的集中批处理模式,大数据挖掘培训则采用以计算移向数据多种计算模式相融合的方式对大数据进行分布并行处理。对于少量的维度较少的静态数据,传统数据挖掘由于反复多次、精确的查询方式以及OLAP较强的灵活性和较快的处理分析能力,其呈现出较高的查询分析性能。但面对维属性繁多及数据立方体庞大的海量数据时,传统的OLAP却无法自动深入地分析,而且以SQL为主的查询语言难以表达需构建的复杂分析模型,因此其查询分析的质量与效率会受到严重的影响。然而,大数据挖掘针对传统分析工具扩展性差和现有云平台分析功能薄弱的问题则进行系统功能的融合,提高原有分析挖掘的分布式并行计算能力和支撑平台的分析能力。
将R分析软件和Hadoop深度集成,以及基于Hadoop对传统挖掘算法与现有算法进行整合改进。对于动态图数据,基于内存分布式的数据管理系统可支持低延迟地查询处理。对于数据流,其采用面向滑动窗口模型的方法,通过概率维度索引进行单次近似连续地直接处理。而基于Hadoop的ApacheMahout可将经典算法转化为MapReduce模式以提升算法吞吐量和性能,且支持半结构或非结构数据如音乐、视频等处理,并以自动交互的方式进行协同过滤及内容分析。同时,除传统查询语言SQL外,大数据挖掘有相应的查询语言,如HiveQL、PigLatin及其他专用API,具有灵活的可扩展性,但查询性能较低,资源利用率不高。

数据展示

传统数据挖掘的展示适于数据量较小且关系较简单的数据结果集,主要以文本、报表及少数可视化图形(如GainLift图、ROC图、饼状图、散点图等)的形式来反映模型效果、性能并呈现挖掘信息。然而,面对多维、海量、动态的数据,由于I/O限制、扩展性不强且交互方式被动难以反映结果之间的联系,其可视化效果不佳。相比传统数据挖掘不具直观性且难以理解的展示,大数据挖掘的展示则是以人机交互的可视化方式将复杂的大数据以图像、动画的形式进行直观地解释,并辅助自动的可视化分析和挖掘,以帮助用户探索和理解数据。其中,代表性的可视化技术有反映复杂社交网络的宇宙星球图、标识对象知名度的标签云、显示集群成员分配的聚类分析可视化技术、反映事物历史变化的历史流图和空间信息流等,它们主要基于并行算法技术实现,涉及数据流线化、管道并行化、任务并行化和数据并行化。
然而,为实现高效的可视化分析,基于内存的原位分析、众包与协同可视化、交互挖掘等技术还需深入研究,学习大数据还需要逐渐对可视化技术的时效、负载均衡及节点通信等问题进一步解决。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢