科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 >

大数据培训学习:数据中心如何应对大数据

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数

现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。大数据也导致高可扩展性成为对IT系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高到10亿级以上。在应对处理大数据的各种技术挑战中,科多大数据小编认为以下几个问题值得高度重视:

(1)大数据的去冗降噪技术。

大数据一般都来自多个不同的源头,而且往往以动态数据流的形式产生。因此,大数据中常常包含有不同形态的噪声数据。另外,数据采样算法缺陷与设备故障也可能会导致大数据的噪声。大数据的冗余则通常来自两个方面:一方面,大数据的多源性导致了不同源头的数据中存在有相同的数据,从而造成数据的绝对冗余;另一方面,就具体的应用需求而言,大数据可能会提供超量特别是超精度的数据,这又形成数据的相对冗余。降低噪声、消除冗余是提高数据质量、降低数据存储成本的基础;

(2)大数据的新型表示方法。

目前表示数据的方法,不一定能直观地展现出大数据本身的意义。要想有效利用数据并挖掘其中的信息或知识,必须找到最合适的数据表示方法。在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联关系时,可能会落入固有的偏见之中。数据表示方法和最初的数据产生者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难。但标识数据会给用户增添麻烦,所以往往得不到用户认可。研究既有效又简易的数据表示方法是处理网络大数据必须解决的技术难题之一;

(3)高效率低成本的大数据存储。

大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,就需要研究高效率低成本的数据存储方式。具体则需要研究多源多模态数据高质量获取与整合的理论和技术、流式数据的高速索引创建与存储、错误自动检测与修复的理论和技术、低质量数据上的近似计算的理论和算法等;

(4)大数据的有效融合。

数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。如同人类有许多种自然语言一样,作为网络空间中唯一客观存在的数据难免有多种格式。但为了扫清网络大数据处理的障碍,应研究推广不与平台绑定的数据格式。大数据已成为联系人类社会、物理世界和网络空间的纽带,需要通过统一的数据格式构建融合人、机、物三元世界的统一信息系统;

(5)非结构化和半结构化数据的高效处理。

据统计,目前采集到的数据85%以上是非结构化和半结构化数据,而传统的关系数据库技术无法胜任这些数据的处理,因为关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP(Consistency,Availability,tolerancetonetworkPartitions)理论,在分布式系统中,一致性、可用性、分区容错性三者不可兼得,因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的高扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。以MapReduce和Hadoop为代表的非关系数据分析技术,以其适合非结构数据处理、大规模并行处理、简单易用等突出优势,在互联网信息搜索和其他大数据分析领域取得了重大进展,已成为大数据分析学习的主流技术。MapReduce和Hadoop在应用性能等方面还存在不少问题,还需要研究开发更有效、更实用的大数据分析和管理技术;

(6)适合不同行业的大数据挖掘分析工具和开发环境。

不同行业需要不同的大数据分析工具和开发环境,应鼓励计算机算法研究人员与各领域的科研人员密切合作,在分析工具和开发环境上创新。当前跨领域跨行业的数据共享仍存在大量壁垒,海量数据的收集,特别是关联领域的同时收集还存在很大挑战。只有跨领域的大数据分析培训才更有可能形成真正的知识和智能,产生更大的价值;

(7)大幅度降低数据处理、存储和通信能耗的新技术。

大数据的获取、通信、存储、管理与分析处理都需要消耗大量的能源。在能源问题日益突出的今天,研究创新的数据处理和传送的节能方法与技术是重要的研究方向
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢