科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 >

大数据分析培训资讯:大数据分析的诞生史

科多大数据小编本文给您介绍数据分析发展与数据本身的变迁,从数据统计分析里面可以发现数据的变化与统计分析方法的发展呈现高度吻合的关系,让我们来看看具体数据演进到大数

科多大数据小编本文给您介绍数据分析发展与数据本身的变迁,从数据统计分析里面可以发现数据的变化与统计分析方法的发展呈现高度吻合的关系,让我们来看看具体数据演进到大数据的历史吧。
大数据分析培训资讯:大数据分析的诞生史
 

数据的变化历史

大数据学习要了解数据的变化过程可以分为三大阶段:数据的产生、科学数据的形成和大数据的诞生。数据的产生基于以下三个要素,一是数,二是量,三是计量单位。一般认为,数起源于古人对事物的“多”或“少”的认识,并通过各种实践加以表达。从中国古代的结绳记事、苏美尔人的串珠计数,到古埃及的十进制象形文数字、古巴比伦的六十进制数字、玛雅数字,再到中国商朝的甲骨文数字、唐代的汉子数字,最终到后来的罗马数字、阿拉伯数字,逐步实现了数的抽象性和可计算性。有了统一的数的概念以及数的基本逻辑关系,事物的测度(包括计数、测量、计量)和比较就有了标准的语言,这在实践中就表现为量,它是能体现事物内在本质特征以及事物之间差异程度的一种载体,包括量的规模、量的关系、量的变化、量的界限与量的规律,即用数来表现事物的规定性。所有这些量的方面,都是统计学研究对象的组成部分,其中量的规模是基础,它通过测量、观察或计量获得,而测量、观察或计量的依据就是标准量,即计量单位。因此,量的表达是由数与取决于事物属性的计量单位共同构成的。
在以规范的数表示事物的特征并采用了科学的计量单位后,就产生了有实际内容的、真正意义上的数据———有根据的数。可见,数据是客观现象的量的表现,是信息的数的表达,它与数的根本区别就在于客观性、真实性、具体性和可变化性。因此,数据使得信息的表达与传递更加准确、有效,而对数据的分析与解释就成为了利用信息的主要途径。毫无疑问,从数到数量再到数据,客观反映了人类认识事物本质属性的必然过程。如果说抽象的数的分析产生了数学,那么有计量单位的数据分析则产生了统计学。
随着对数据需求的增加,以及收集与运用数据经验的不断积累,人们在科学研究的过程中逐渐形成了科学数据。科学数据是人们为了科学研究目的而有针对地收集的,用以探求现象变化规律或用以验证已有理论假设的数据,数据收集的方式主要是观察、测量和实验。科学数据的特点是科学设计、可重复获得、相对精确和具有共享性。就统计学而言,大量的事例表明它的产生与发展同样以科学数据为基础,每一种统计分析方法都是在对科学数据进行科学研究的基础上形成的。随着数据来源渠道的多元化,以及收集、储存和运用数据能力的极大提高,大数据悄然出现并且来势凶猛。20世纪中期开始的生物基因测序研究,面临着如何理解和处理不断增加的数据的问题,天文学、物理学、气象学和社会学等研究领域也是如此。1966年,国际科技数据委员会(CODATA)成立,旨在促进全球科技数据的共享。
面对快速增加的海量数据,人们开始重新审视和定义数据。如果说计算机技术、通讯技术、网络技术、电子储存技术、感应记录技术、监控技术的快速发展,是大数据产生的基础因素,那么人类对数据理念探索的深化、对数据多样性的追求、对信息的永不满足,是大数据产生的内在动力。以非结构化、半结构化数据为主体的大数据,正在改变着一切,而以大数据为研究对象,通过挖掘、提取等手段探寻与分析现象内在规律的学科———数据科学也应时而生。综上所述,数据产生之初,其根本的功能就是体现事物或现象的量的大小或多少,便于计数与比较,数据大多自然获得、被动利用;科学数据以研究与管理为目的,一般是主动获得、主动利用;而大数据的特征则是丰富的数据资源与主动获得数据相结合,是数据类型的多样化。当然,数据的演变是一个渐进的过程,它不是简单地以一种形式代替另一种形式,而是一个由简单到复杂的各种形式相互包容、不断丰富的过程。

统计分析方法的发展

如果说数据是表现事物现象特征的精确语言、认知世界的重要工具、治理国家的必备依据和科学研究的必备条件,那么数据分析则是让数据充分说话、最大限度发挥功能、有效满足不同需要的根本要求。在科学数据研究基础上形成的具有通用性质的方法,就是统计方法。
纵观统计学发展史,作为统计研究对象的数据大体上经历了这样一个过程:只能收集到少量的数据—尽量多地收集数据—科学利用样本数据—综合利用各类数据—选择使用大数据,而统计分析大体上经历了计数分析、简单运算分析、分布特征分析、估计推算分析、动态预测分析、评价判定分析、关联关系分析、系统平衡分析、数据挖掘分析等阶段(当然,它们之间存在着相互交叉的关系),相应地产生了不同的统计分析方法,包括大量观察法、统计分组法、综合指标法、归纳推断法、模型方程法和数据挖掘法等,并且对计算机和软件的利用程度也越来越深。如果说统计学在产生之初发挥了其客观描述现象数量特征的功能,并在长达几百年的科学研究、国家治理和生产管理过程中体现了其在探求现象规律(尤其是因果规律)方面的独特作用,那么如今在新的数据环境下则需在挖掘发现信息知识方面展现出其新的魅力,这就是统计学的新发展———大数据分析。
大数据分析是数据科学赋予统计学的新任务通过数据分析揭示事物的真相,是统计思维的永恒主题。目前,人们对大数据的关注主要是将其作为一种研究方法或一种新的知识发现工具,还没有将其本身作为主要的研究目标。
倘若人类仅仅停留于获取数据这个层面,其意义是十分有限的。好在已有越来越多的人认识到,只有将数据转化为知识并变成智慧才能真正体现出大数据的价值,基本过程就是借助传感器或相关软件采集与处理信号、形成数据,经处理后变成信息,再通过挖掘形成知识,最终上升到智慧层次。也就是说,大数据分析学习里面我们不仅要知道是什么数据,还应该知道这些数据代表着什么?面对这些数据应该采取什么样的应对策略?
大数据分析培训资讯:大数据分析的诞生史

大数据分析的诞生

要做到这一点,就需要开展大数据分析。大数据分析的目的就是要通过对历史数据的分析和挖掘,科学总结与发现其中蕴藏的规律和模式,并结合源源不断的动态流式数据去预测事物未来的发展趋势。如果说大数据要求我们改变数据思维、重视数据资产、实现数据价值(数据变现),那么统计学的任务就是通过大数据分析来帮助实现这个目的。
对于统计学来说,开展大数据分析就是积极投身于数据科学研究之中。有人说伴随着大数据产生了数据科学,但其实数据科学(datascience或dataology)一词早在20世纪60年代就已被提出,只是当时没有引起足够的注意。
1974年彼得·诺尔出版了《计算机方法的简明调查》一书,在序言中写道:
  • 1968年,国际信息处理联合会(IFIP)大会通过了一份题为《数据科学:数据与数据处理的科学,及其在教育中的地位》的报告;诺尔根据IFIP出版的《数据处理概念与术语指南》将数据界定为“通过某种处理程序能够以一种正式方式被传播与控制的事实与思想的表现形式”,将数据科学定义为“是处理数据的科学,一旦数据与其所代表事物的关系被建立起来,将为其他领域与科学提供借鉴”;
  • 1977年,国际统计计算协会(IASC)作为国际统计协会(ISI)的一个分支组织正式成立,其使命是整合传统统计方法、现代计算机技术以及行业专家的知识,以将数据转化为信息与知识;
  • 1996年,在日本东京召开的题为“数据科学,分类和相关方法”的分类国际联合会(IFCS),第一次将数据科学作为会议的主题词;2001年,美国统计学教授威廉.S.克利夫兰(WilliamS.Cleveland)发表了《数据科学:拓展统计学技术领域的行动计划》,并建立了数据科学的6个技术领域:多学科调查研究、数据模型与方法、数据计算、教学法、工具评估及理论研究。因此,有人认为是克利夫兰首次将数据科学作为一门独立的学科,并把数据科学定义为统计学领域扩展到与以数据作为先进计算对象相结合的部分,奠定了数据科学的理论基础。但对这个观点并非没有异议,也有人认为数据科学主要属于计算机科学领域。
  • 2001年,国际科技数据委员会创建了学术期刊“CODATADataScienceJournal”,标志着数据科学的真正诞生。2003年由美国和中国学者创办的“JournalofDataScience”在哥伦比亚大学正式出版,发表以统计应用方法研究的所有与数据有关的成果,如数据的收集、分析和建模。
  • 2012年由springer出版集团创办了“EPJDataScience”,认为21世纪的数据驱动科学已经成为传统的假说驱动科学方法的补充,将对自然科学、技术领域、社会经济科学产生全方位的影响。
可以预见,数据科学的产生将在不同学科领域催生一批新的研究方向。然而,数据科学的重点是数据的处理技术问题还是数据分析问题?如果说主要是数据处理技术问题,那么它无疑属于计算机科学的范畴,如果说主要是数据分析问题,那么应该主要属于统计学的范畴。我们认为,数据科学既是数据处理问题也是数据分析问题,因此既与计算机科学有关,也与统计学有关,还与数学、逻辑学、系统科学、行为科学等有关,但以数据为研究对象的统计学无疑与之具有最为紧密的关系。因此进行大数据分析培训也必然要学习统计学、数学等内容。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢