科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训资讯:大数据处理系统的典型应用

大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。Mayer-Schönberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对

大数据这样火爆,大数据培训也逐渐走进大家的视野。Mayer-Schönberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。因此,海量数据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理形式主要是对静态数据的批量处理,对在线数据的实时处理,以及对图数据的综合处理。其中,在线数据的实时处理又包括对流式数据的处理和实时交互计算两种。本文将详细阐述上述4种数据形式典型应用。

1.批量数据处理系统
物联网、云计算、互联网以及车联网等无一不是大数据的重要来源,当前批量数据处理可以解决前述领域的诸多决策问题并发现新的洞察。因此,批量数据处理可以适用于较多的应用场景。本节主要选择互联网领域的应用、安全领域的应用以及公共服务领域的应用这3个典型应用场景加以介绍。在互联网领域中,批量数据处理的典型应用场景主要包括:
(a)社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据。对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验。
(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量。
(c)搜索引擎:Google等大型互联网搜索引擎与Yahoo!的专门广告分析系统,通过对广告相关数据的批量处理用来改善广告的投放效果以提高用户的点击量。在安全领域中,批量数据主要用于欺诈检测和IT安全。在金融服务机构和情报机构中,欺诈检测一直都是关注的重点。通过对批量数据的处理,可对客户交易和现货异常进行判断,从而对可能存在欺诈行为提前预警。另一方面,企业通过处理机器产生的数据,识别恶意软件和网络攻击模式,从而使其他安全产品判断是否接受来自这些来源的通信。
在公共服务领域,批量数据处理的典型应用场景主要包括:
(a)能源:例如,对来自海洋深处地震时产生的数据进行批量的排序和整理,可能发现海底石油的储量;通过对用户能源数据、气象与人口方面的公共及私人数据、历史信息、地理数据等的批量处理,可以提升电力服务,尽量为用户节省在资源方面的投入。
(b)医疗保健:通过对患者以往的生活方式与医疗记录进行批量处理分析,提供语义分析服务,对病人的健康提供医生、护士及其他相关人士的回答,并协助医生更好的为患者进行诊断。当然,大数据的批量处理不只应用到这些领域,还有移动数据分析、图像处理以及基础设施管理等领域。随着人们对数据中蕴含价值的认识,会有更多的领域通过对数据的批量处理挖掘其中的价值来支持决策和发现新的洞察。

2. 流式数据处理系统
流式计算的应用场景较多,典型的有两类:
(a)数据采集应用:数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息。当前数据采集应用有日志采集、传感器采集、Web数据采集等。日志采集系统是针对各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达到动态提醒与预警功能。传感器采集系统(物联网)通过采集传感器的信息(通常包含时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智能交通、环境监控、灾难预警等。Web数据采集系统是利用网络爬虫程序抓取万维网上的内容,通过清洗、归类、分析并挖掘其数据价值。
(b)金融银行业的应用:在金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅有结构化数据,也会有半结构化和非结构化数据。通过对这些大数据的流式计算,发现隐含于其中的内在特征,可帮助金融银行进行实时决策。这与传统的商业智能(BI)分析不同,BI要求数据是静态的,通过数据挖掘技术,获得数据的价值。然而在瞬息万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助流式数据处理的帮助。
总之,流式数据的特点是,数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低。而对应的处理工具则需具备高性能、实时、可扩展等特性。



3. 交互式数据处理
在大数据环境下,数据量的急剧膨胀是交互式数据处理系统面临的首要问题。下面主要选择信息处理系统领域和互联网领域做为典型应用场景进行介绍。
(a)在信息处理系统领域中,主要体现了人机间的交互。传统的交互式数据处理系统主要以关系型数据库管理系统(DBMS)为主,面向两类应用,即联机事务处理(OLTP)和联机分析处理(OLAP)。OLTP基于关系型数据库管理系统,广泛用于政府、医疗以及对操作序列有严格要求的工业控制领域;OLAP基于数据仓库系统广泛用于数据分析、商业智能(BI)等。最具代表性的处理是数据钻取,如在BI中,可以对于数据进行切片和多粒度的聚合,从而通过多维分析技术实现数据的钻取。目前,基于开源体系架构下的数据仓库系统发展十分迅速,以Hive、Pig等为代表的分布式数据仓库能够支持上千台服务器的规模。
(b)互联网领域。在互联网领域中,主要体现了人际间的交互。随着互联网技术的发展,传统的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。此外,各种交互式问答平台,如百度的知道、新浪的爱问以及Yahoo!的知识堂等。由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。目前,各大平台主要使用NoSQL类型的数据库系统来处理交互式的数据,如HBase采用多维有续表的列式存储方式;MongoDB[25]采用JSON格式的数据嵌套存储方式。大多NoSQL数据库不提供Join等关系数据库的操作模式,以增加数据操作的实时性。

4. 图数据处理系统
图能很好地表示各实体之间的关系,因此,在各个领域得到了广泛的应用,如计算机领域、自然科学领域以及交通领域。
(a)互联网领域的应用。随着信息技术和网络技术的发展,以Web2.0技术为基础的社交网络(如Facebook、人人网)、微博(如Twitter、新浪微博、腾讯微博)等新兴服务中建立了大量的在线社会网络关系,用图表示人与人之间的关系。在社交网络中,基于图研究社区发现等问题;在微博中,通过图研究信息传播与影响力最大化等问题。除此之外,用图表示如E-mail中的人与人之间的通信关系,从而可以研究社会群体关系等问题;在搜索引擎中,可以用图表示网页之间相互的超链接关系,从而计算一个网页的PageRank得分等。
(b)自然科学领域的应用。图可以用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在DNA中查找特定序列等。
(c)交通领域的应用。图可用来在动态网络交通中查找最短路径,在邮政快递领域进行邮路规划等。当然,图还有一些其他的应用,如疾病爆发路径的预测与科技文献的引用关系等。图数据虽然结构复杂,处理困难,但是它有很好的表现力,因此得到了各领域的广泛应用。随着图数据处理中所面临的各种挑战被不断地解决,图数据处理将有更好的应用前景。

看了这些典型处理系统,是不是有的还挺熟悉的?更多大数据培训资讯欢迎关注科多大数据


最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢