科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据技术的应用场景,学习大技术具体要做些什么?

大数据中有着宝贵的数据价值,这些价值让大批量的处理数据有了足够的价值驱动。学员们在大数据培训班里学习大数据的时候可能会有疑问,我们学会了这个是要做什么。现在科多小

大数据中有着宝贵的数据价值,这些价值让大批量的处理数据有了足够的价值驱动。学员们在大数据培训学习大数据的时候可能会有疑问,我们学会了这个是要做什么。现在基于批量数据处理系统讲解一下大数据的应用场景。
大数据处理系统利用批量数据挖掘合适的模式,得出具体的含义,制定明智的决策,最终做出有效的应对措施实现业务目标是大数据开发工作的首要任务.大数据的批量处理系统适用于先存储后计算,实时性要求不高,同时数据的准确性和全面性更为重要的场景.

大数据技术的应用场景,学习大技术具体要做些什么?

大批量数据的特征与典型应用

 (1) 批量数据的特征批量数据通常具有 3 个特征.

第一,数据体量巨大.数据从 TB 级别跃升到 PB 级别.数据是以静态的形式存储在硬盘中,很少进行更新,存储时间长,可以重复利用,然而这样大批量的数据不容易对其进行移动和备份.

第二,数据精确度高.批量数据往往是从应用中沉淀下来的数据,因此精度相对较高,是企业资产的一部分宝贵财富.

第三,数据价值密度低.以视频批量数据为例,在连续不断的监控过程中,可能有用的数据仅仅有一两秒.因此, 需要通过合理的算法才能从批量的数据中抽取有用的价值.

此外,批量数据处理往往比较耗时,而且不提供用户程学旗 等:大数据系统和分析技术综述 1891 与系统的交互手段,所以当发现处理结果和预期或与以往的结果有很大差别时,会浪费很多时间.因此,批量数据处理适合大型的相对比较成熟的作业.

物联网、云计算、互联网以及车联网等无一不是大数据的重要来源,当前批量数据处理可以解决前述领域的诸多决策问题并发现新的洞察.因此,批量数据处理可以适用于较多的应用场景.本节主要选择互联网领域的应用、安全领域的应用以及公共服务领域的应用这 3 个典型应用场景加以介绍。

在互联网领域中,批量数据处理的典型应用场景主要包括:

(a) 社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据.对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验.

(b) 电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量.

(c) 搜索引擎:Google 等大型互联网搜索引擎与 Yahoo!的专门广告分析系统,通过对广告相关数据的批量处理用来改善广告的投放效果以提高用户的点击量.在安全领域中,批量数据主要用于欺诈检测和 IT 安全.在金融服务机构和情报机构中,欺诈检测一直都是关注的重点.通过对批量数据的处理,可对客户交易和现货异常进行判断,从而对可能存在欺诈行为提前预警.

另一方面,企业通过处理机器产生的数据,识别恶意软件和网络攻击模式,从而使其他安全产品判断是否接受来自这些来源的通信.在公共服务领域,批量数据处理的典型应用场景主要包括:

(a) 能源:例如,对来自海洋深处地震时产生的数据进行批量的排序和整理,可能发现海底石油的储量;通过对用户能源数据、气象与人口方面的公共及私人数据、历史信息、地理数据等的批量处理,可以提升电力服务,尽量为用户节省在资源方面的投入.

(b) 医疗保健:通过对患者以往的生活方式与医疗记录进行批量处理分析,提供语义分析服务,对病人的健康提供医生、护士及其他相关人士的回答,并协助医生更好的为患者进行诊断.当然,大数据的批量处理不只应用到这些领域,还有移动数据分析、图像处理以及基础设施管理等领域.随着人们对数据中蕴含价值的认识,会有更多的领域通过对数据的批量处理挖掘其中的价值来支持决策和发现新的洞察.

代表性的处理系统由 Google 公司 2003 年研发的 Google 文件系统 GFS和 2004 年研发的 MapReduce 编程模型以其 Web 环境下批量处理大规模海量数据的特有魅力,在学术界和工业界引起了很大反响.虽然 Google 没有开源这两项技术的源码,但是基于这两篇开源文档,2006 年 Nutch 项目子项目之一的 Hadoop 实现了两个强有力的开源产品[15]:HDFS 和 MapReduce.Hadoop 成为了典型的大数据批量处理架构,由 HDFS 负责静态数据的存储,并通过 MapReduce 将计算逻辑分配到各数据节点进行数据计算和价值发现.Hadoop 顺应了现代主流 IT 公司的一致需求,之后以 HDFS 和 MapReduce 为基础建立了很多项目,形成了 Hadoop 生态圈. MapReduce 编程模型之所以受到欢迎并迅速得到应用,在技术上主要有 3 方面的原因.

首先, MapReduce 采用无共享大规模集群系统.集群系统具有良好的性价比和可伸缩性,这一优势为 MapReduce 成为大规模海量数据平台的首选创造了条件.

其次,MapReduce 模型简单、易于理解、易于使用.它不仅用于处理大规模数据,而且能将很多繁琐的细节隐藏起来(比如,自动并行化、负载均衡和灾备管理等),极大地简化了程序员的开发工作.而且,大量数据处理问题,包括很多机器学习和数据挖掘算法,都可以使用 MapReduce 实现.

第三,虽然基本的 MapReduce 模型只提供一个过程性的编程接口,但在海量数据环境、需要保证可伸缩性的前提下,通过使用合适的查询优化和索引技术,MapReduce 仍能够提供很好的数据处理性能.

这些就是科多整理的批量数据处理系统在大数据方面的应用场景以及数据分析工具,希望读者们能在对大数据挖掘跟大数据分析方面的工作有足够的认知。

最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢