科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训:大数据传递的到底是信息还是噪声

大数据发展也引发了对基本概念的重新思考。信息和数据含义不同,但二者密切相关。英文的data,我们通常译为“数据”。有学者提出,“数据之据”表明了其内涵的质的规定性,按照这种说

大数据发展也引发了对基本概念的重新思考。信息和数据含义不同,但二者密切相关。英文的data,我们通常译为“数据”。有学者提出,“数据之据”表明了其内涵的质的规定性,按照这种说法,可以有“数码与数据”之别,或者说“有据之数”与“无据之数”之别。我们知道,“具象数据”肯定给出了某种信息,但抽象的数码全都是信息吗?循着这类问题思考,就涉及到了数据学科的基础理论甚至哲学层面,个人的见解可能会有很大差异。
不过笔者认为,以下关于信息与噪声的认识应该是比较容易得到认同的。

(一)信息与噪声的“一体性”

在科学领域,很少看到所有数据都集中到一个明确的结论上的情况。真正的数据非常噪杂。数据就在那里,信息和噪声同时空存在,统计学家纳特·西尔弗说:“只要能将信号与噪声区分开来,我们就能获得所需的任何信息。”这位预测界的“神奇小子”说的是绝对真理,但问题恰恰在于信号与噪声难以区分,二者随使用者的变化而变化。从最终用途看,大部分数据对用户而言都是噪声。
人们拥有的信息呈指数增长,而需要验证的假设也正在以同样的速度增长。亟待解决的问题及其复杂程度也正在以同样的速度增长。大量的信息成倍增加,但有用的信息却非常有限。西尔弗指出:“噪声的增长速度要比信号快得多”,因此,“信号的比例正在缩小,我们需要找到更好的方法对信号和噪声进行区分。”数据科学家通常用4V表达大数据的特点,有学者补充提出稀疏性(Sparsity),即有价值的信息相对于数据量而言非常至少,这个补充很有见地。
没有信息,就无法辨明真相。这会让人们以为:信息越多,就越靠近真相。很多情况如此,但这不是绝对的。信息只是得到真相的必要条件,而不是充分条件。无信息则无真相,不等于有信息便有真相。有信息而无真相,其重要原因就是噪声与信息的“一体性”。
科学使社会变得明朗,但科学同样也使社会组织变得更加复杂。信号过多又会使意义识别工作异常困难,这些信号可能会被淹没在震耳欲聋的噪声中。在统计学中,将噪声误以为信号的行为被称为过度拟合。遗憾的是,现实中过度拟合的事例太多。无论从静态还是从动态看,信息与噪声之间都没有绝对的界限。如此说来,大数据时代同时也就是“大噪声时代”。

大数据培训:大数据传递的到底是信息还是噪声

(二)信息和噪声的“对象相对性”

种种情况表明了信息和噪声的“对象相对性”。数据库专家杰克·奥尔森指出:“数据能满足其既定的用途,它才有质量。”“信息的质量不仅取决于它本身,还取决于它的用途。”
对某些人而言是信息,对另外一些人而言则可能完全是噪声。比较典型的例子如,第二次世界大战时美军内部使用印第安语联络,实际上已经是明码呼叫,对当时的日军而言,则是不可破解的密码。
本来是有用的、待用的信息,可是接受者没有能力在适当的时间里接受和消化,甚至成为接受其他更有用信息的负担,此信息对该接受者而言实质上处于噪声状态。究竟是信息还是噪声,依接受者的数据处理能力而定。
数据中信息多少还与使用者性格密切相关。对“狐狸型决策者”而言,数据越多,其提取的有用信息越多,其决策成功的可能性越大;对“刺猬型决策者”而言,数据越多,被噪声影响的可能性就越大,其决策失败的可能性也就越大。
环境对数据有用性的确定也有相当大的影响。比如,小规模的恐怖袭击在以色列被视为普通犯罪,这里的每个人对恐惧都已经麻木了,以色列真正不能容忍的是潜在的大级别恐怖袭击。在这种状态下,涉及小规模恐怖袭击的消息对以色列人来说就不是什么有用的信息,不会影响其日常生活的安排。但类似消息对外地的旅游者而言则恐怕是致命的。

(三)信息公布的广度与其价值可能存在逆相关关系

对多数人都可轻易得到的信息,其信息价值往往不大。多数人视若无睹的,甚至视为噪声的信息,对少数人而言其价值可能最大。
在某种意义上,待用信息即噪声,因为它虽然可能成为信息资源,但其潜在状态的保留也需要消耗资源。数据的价值是或然的,数据处理的损耗却是实在的。同时,待用信息的拥有量过大,还会影响用户选择的效率,也具有负面作用。
本来信息越多越好,这是人类倡导大数据的本意。然而信息广度与其价值背反却是人类难以完全解决的一个悖境。中国社会科学院信息化研究中心秘书长姜奇平指出:“大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。”
但取舍绝不是这么简单。社会是多元的,意义也是多元的,甲的“有意义”,可能正是乙的“无意义”。全社会达成共识的意义少之又少,难道只保留那些普世价值么?如果鼓励开放社会,那么众人意义的叠加,数据就很可能无可删除,哪一项也“舍”不掉。争吵到最后都得“取”,信息拥堵问题恐怕还在。

(四)部分信息的价值具有时效性

信息获取时间的先后与其价值大小可能存在正相关关系。如果比其他人延迟获取,所得信息往往会失去其应用价值。
人们决策往往不能等到掌握全部甚至大部分信息,“限时性决策”的场合非常多,只有决策时由决策者掌握的数据才是具有实效的信息,否则就是噪声。
信息的时效性和多样性也为决策者坚持预定目标提供了方便。最为典型的例子就是美国发动的伊拉克战争。西尔弗指出:从错综复杂的数据中很容易看到你想要的数据,当我们过于想要发动一场战争时,不可靠的信号来源也会被解读成可靠的。例如伊拉克战争发生前,伊拉克工程师拉菲德·阿尔贾纳比因痛恨萨达姆而撒谎,他声称自己过去服务的种子工厂是一座制造生化武器的秘密工厂,随后他承认自己编造了一个虚假信息。而美方明知其证词为噪声,也将之作为信号加以利用。反战的民众没能及时得到相关信息,而战后得到的确切信息已经于事无补。

(五)信息获取量的边际效用递减关系

对信息的接受者而言,通常都是信息越多越好。但如果发送信息的频率过高,获取持续时间过长,信息接受者就会产生审美疲劳,所得到信息的边际效用将从大变小,甚至为负,转变为噪声。
西尔弗指出:“信息的增长速度远远超过了人们处理信息和分辨信息的速度,”面对数据盛宴,人们往往无从下手,从胃口和食物的配比看严重过量。面对过量的信息,人们本能地进行筛选,按照自已的偏好,选出喜欢的,忽略其他的。对于超负荷信息,人类只能启动自身固有的减载能力。
经济学诺奖得主赫伯特·西蒙说过:“显而易见信息消费了什么,这就是信息接受者的注意力。因此丰富的信息导致了注意力的匮乏。匮乏资源不是信息,而是我们关注信息的处理能力。注意力是组织活动的主要瓶颈。”
尽管信息技术有助于人们处理信息,然而多数人仍然不可能做到极致,注意力的提升毕竟是有限的,如果信息过度膨胀,就容易出现“数据涝灾”。

当然信息和噪声之间还可能存在其他关系,以上五条不过抛砖引玉。掌握大数据,正是为了得到有益于人类的信息,主观上还会倾向于屏蔽或许无益于人类的噪声。显然,明确信息与噪声之间的辩证关系,才可能形成较为正确的大数据观,更有助于大数据学习和认知。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢