科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据学习资讯:大数据时代的统计重心转移

大数据时代的来临给各行各业都提出了挑战,统计学也不例外。在这样的时代背景下,统计学选择了调整重心以更好的发展。不想被时代抛下的话,你也来试试大数据学习吧。

大数据时代的来临给各行各业都提出了挑战,统计学也不例外。在这样的时代背景下,统计学选择了调整重心以更好的发展。不想被时代抛下的话,你也来试试大数据学习吧。

(一)“样本=总体”意味着什么

舍恩伯格和库克耶指出:大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。所谓“所有数据”是一种相对的说法,但在工作思路上,似乎又回转向了“全面调查”,数据科学家甚至提出了“样本=总体”的准则。这种巨大的调整,是否意味着统计重心需要转移呢?
维克托·迈尔·舍恩伯格和肯尼思·库克耶认为,随机采样方法存在许多固有的缺陷:一是采样的随机性很难实现,二是不适合考察子类别的情况,三是调查结果缺乏延展性,四是采样忽略了细节考察,五是无法用于奇异值分析。而大数据分析则可以弥补随机采样法的上述缺陷。
统计实务是一个包含着各不同阶段的全过程,从统计设计到基础数据收集、数据处理、数据分析、统计信息发布,环环相扣。统计学要为统计实务提供理论和方法论指导,需要针对不同阶段的各自特点而进行科学研究。
如果说原来的统计实务的重心在于收集基础数据,难点在于如何获取数据,那么在大数据时代,则更在于如何选择有用数据。如果说原来重心是“做加法”———无中生有;那么现在重心则是“做减法”———“有中生用”。用贺铿教授的话说,原来统计学的特点是以小见大,现在则更在于“由繁入简”。
由大数据时代的影响,至少有两点需要引起注意:其一是统计数据处理比基础数据收集更为重要;其二是统计设计环节的格外重要,总体上需要更注重不同阶段的衔接和反馈关系。

(二)数据的识别问题

舍恩伯格和库克耶提出大数据时代的三大趋势,其中之一就是相关分析对原来因果分析的替代。这种所谓替代并不是全然的,在大数据时代人们并不是放弃了因果关系的分析,而是借用相关分析作为重要乃至主要途径。因果关系不过是相关关系中的一部分,分析相关关系也正是为了间接得出对因果关系的认识。
大数据时代,数据的识别问题更为重要。这意味着,现实与理论、方法间需要反复作用,实质性科学的主导更为重要。哪怕是从纯海量数据中提取信息,没有先验认识,也还需要后验认识,从数据中总结出的数量规律能否成立?这是无论如何也不能避开的问题。
就是舍恩伯格和库克耶也不同意安德森的极端观点。他们指出:“大数据绝不会叫嚣‘理论已死’”,因为“大数据是在理论的基础上形成的”,无论是如何搜集数据、分析数据,还是解读研究结果,都得依赖理论。“大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。”
微软研究院首席研究员、MIT公民媒体中心客座教授凯特·克劳福德指出,“数据无法自己说话,而数据集———不管它们具有什么样的规模———仍然是人类设计的产物。大数据的工具———例如ApacheHadoop软件框架———并不能使我们摆脱曲解、隔阂和错误的成见。”一些著名案例可以说明这一点。

大数据学习资讯:大数据时代的统计重心转移

(三)虚拟信息的识别问题

除了对“数据之据”的考察外,还有虚拟信息的识别问题。例如,许多推特账号实际上是机器人自动程序或“半机器人”系统(即得到机器人程序辅助的人工控制账号),还有虚假账号。最近的估计显示,可能存在多达2000万个虚假账号。
由此,当我们使用网络数据分析社会状况时,首先要警觉的问题是,数据中有没有由自动化算法系统产生的?如果有的话,究竟有多少?“架势无线”的CEO叶忻坦言,市场中此类数据的噪声大多,会导致数据价值大大降低。以互联网营销为例,大量的“刷量”以及水军好评差评等数据已经严重干扰了数据的准确性。
此外,在技术层面如何实现“数据去重”?如何确保数据的完整性?如何剔除网络病毒的影响,如此等等,也是不可忽视的。

(四)为什么要提防“数据独裁”

舍恩伯格和库克耶专门论述了“数据独裁”问题,其典型案例就是罗伯特·麦克纳马拉。第二次世界大战时麦克纳马拉就是“统计控制队”的一名精英,战后当他接手福特公司时,数据管理成为他执掌福特的杀手锏。然而,上有政策下有对策,工厂经理会迅速生成总裁所要的数据。比如,麦克纳马拉规定,只有在旧车型的所有零件没有存货时,才能生产新车型,于是生产线经理就把剩余的零件全部倒进河里。麦克纳马拉担任美国国防部长后,评判战争进度的方法就是看对方的死亡人数。由于长官热衷于数据,下级为了达成命令或升迁,就一层一层地将数字扩大化,只要那是上级希望听到的数字。
政策制定者一旦锁定了一个特定变量,这个变量就会逐步失去其作为经济指标的价值,这是“古德哈特定律”所揭示的。只要利用数据进行管理,就必定有人利用数据进行“反管理”。至少人们具有这样一种行为倾向:在博弈中尽可能生成符合自已主观意愿的信息。甚至,罪犯可以利用“数据印迹”嫁祸于人,藏匿自己,“魔道之争”将在一个新的平台上展开。
按照索罗斯的“自反性原则”,事物参与者的看法与其所处状态互相影响。问题的要害恰恰在于,参与者自身正是他们所要解决的问题的组成部分。只要涉及到人类本身,就一定存在动态博弈。大数据对博弈的支持其实是“两边下注”的,社会事务的不确定性依然存在,甚至更为复杂。由此,“数据独裁”往往适得其反。

如何适应时代发展,统计学者已经在路上,那你呢?还不快来试试大数据学习课程提升自己?
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢