科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 >

大数据培训资讯:大数据的数据源都在哪些领域

大数据概念如此火爆,不少小伙伴都是非常动心了。对大数据行业感兴趣,想要选择大数据培训?先来了解一下大数据这样庞大的数据流到底是怎么汇聚起来又是从哪里产生的呢?

大数据概念如此火爆,不少小伙伴都是非常动心了。对大数据行业感兴趣,想要选择大数据培训?先来了解一下大数据这样庞大的数据流到底是怎么汇聚起来又是从哪里产生的呢?

大数据生成的发展趋势可由数据产生速率来描述。随着技术的发展,数据产生速率也不断增长。事实上,IBM认为现在世界上90%的数据是近两年产生的。数据爆炸的原因被广为争论。Cisco认为数据的增长来自于视频、互联网和摄像头。由于数据实际上是能被计算机可读的信息抽象,信息通信技术(ICT)是使得信息可读并且产生或捕获数据的主要驱动力。因此本节首先从ICT技术的发展开始,以历史的观点解释数据爆炸的发展趋势。数据生成的模式可分为3个顺序的阶段。

•阶段1始于20世纪90年代。随着数字技术和数据库系统的广泛使用,许多企业组织的管理系统存储了大量的数据,如银行交易事务、购物中心记录和政府部门归档等。这些数据集是结构化的,并能通过基于数据库的存储管理系统进行分析。
•阶段2则始于web系统的日益流行。以搜索引擎和电子商务为代表的web1.0系统在20世纪90年代末期产生了大量的半结构化和无结构的数据,包括网页数据和事务日志等。而自2000年初期以来,许多web2.0应用从在线社交网络(如论坛、博客、社交网站和社交媒体网站等)中产生了大量的用户创造内容。
•阶段3因移动设备(如智能手机、平板电脑、传感器和基于传感器的互联网设备)的普及而引发。在不久的将来,以移动为中心的网络将产生高度移动、位置感知、以个人为中心和上下文相关的数据。

可以发现,数据生成模式是从阶段1的被动记录到阶段2的数据主动生成,再到阶段3的自动生成。



除了用数据产生速率描述,大数据源还与数据产生领域相关。本文主要对商业、网络和科学研究这三个领域进行大数据相关技术的调研。首先,大数据和商业活动联系紧密,许多大数据工具已经被开发并广泛使用;其次,大部分的数据是由互联网、移动网络和物联网产生的。再次,科学研究会产生大量的数据,高效的数据分析将帮助科学家们发现基本原理,促进科学发展。这三个领域在对大数据的处理方面具有不同的技术需求。

(1)商业数据
过去几十年中,信息技术和数字数据的使用对商业领域的繁荣发展起到了重要的推动作用。全球所有公司商业数据量每1-2年会翻番。互联网上的商业事务,包括B2B和B2C事务,每天有4500亿条。日益增长的商业数据需要使用高效的实时分析工具挖掘其价值。例如,Amazon每天要处理几百万的后端操作和来自第三方销售超过50万的查询请求。沃尔玛每小时要处理上百万的客户事务,这些事务被导入数据库,约有超过2.5PB的数据量。Akamai每天则需分析7500万事件,以更好地实现广告定位。

(2)网络数据
网络(互联网、移动网络和物联网)已经和人们的生活紧密联系在一起。网络应用如搜索、社交网络服务SNS、网站和点击流是典型的大数据源。这些数据源高速产生数据,需要先进的处理技术。例如,搜索引擎Google在2008年每天要处理20PB的数据;社交网络应用Facebook则每天需存储、访问和分析超过30PB的用户创造数据;Twitter每月会处理超过3200亿的搜索。在移动网络领域,2010年有40亿人持有手机,其中约12%的手机是智能手机。而在物联网领域,有超过3000万的联网传感器工作在运输、汽车、工业、公用事业和零售部门并产生数据。这些传感器每年仍将以超过30%的速率增长。

(3)科学研究数据
越来越多的科学应用正产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析,这些学科主要包括:
光学观测和监控。在光学遥感和对地观测领域、基于光学等设备的视频监控领域等,往往需要获取连续大量的数据。这些几乎造成管理和处理灾难的数据有一定的周期性,而用户关心的又往往是其中的差异和异常的部分。考虑到这类数据的分析和学习过程往往又同获取这些数据时的装置和参数密切相关,再加上视觉信息对人类的重要性以及用户同系统的必要交互,对光学观测和监控数据的管理和处理已经提高到重要日程。
计算生物学。美国国家生物信息中心NCBI维护了GenBank的核苷酸序列数据库,该数据库大小每10个月翻倍。2009年8月,数据库中存储了来自15万多有机生物体的超过2500亿条核苷酸碱基。天文学。从1998年到2008年,最大的天文目录SDSS从天文望远镜中获取了25Terabytes数据。随着天文望远镜分辨率的提高,每晚产生的数据量将在2014年超过20Terabytes。
高能物理。欧洲粒子物理实验室中大型强子对撞机实验,在2008年初起以2PB/s的速率产生数据,每年将存储约10PB经过处理的数据。这些领域不但要产生海量的数据,还需要分布在世界各地的科学家们协作分析数据。可以看出,大部分的数据源产生PB级别的无结构数据,并且需要得到快速准确的分析。

没想到大数据的来源不只是商业和网络,科学研究也为大数据的出了不小的力。想了解更多大数据相关资讯或者大数据培训,欢迎关注科多,多多支持更有技术干货掉落。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢