科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

科多大数据告诉你,我们为什么使用hadoop

近几年, 大数据 这个词突然变得很火,不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界

        近几年,大数据这个词突然变得很火,不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿。什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说,对于大数据,可以用四个词来表示:大量、多样、实时、不确定,也就是数据的量庞大,数据的种类繁杂多样话,数据的变化飞快,数据的真假存疑。
大数据学习
 
大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。
多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。
实时:大数据需要快速的,实时的进行处理。如果说对时间要求低,那弄几个机器,对小数据进行处理,等个十天半月的出来结果,这样也没有什么意义了。
不确定: 数据是存在真伪的,各种各样的数据,有的有用,有的没用。很难辨析。

 根据以上的特点,我们需要一个东西:
1、存储大量数据
2、快速的处理大量数据
3、从大量数据中进行分析
 
于是就有了这样一个模型hadoop。
hadoop的历史就不说了。先来看看模型。
 
  大数据学习
        这就相当于一个生态系统,或者可以看成一个操作系统XP,win7。HDFS和MapReduce为操作系统的核心,Hive,Pig,Mathout,Zookeeper,Flume,Sqoop,HBase等,都是操作系统上的一些软件,或应用。HDFS:(Hadoop Distributed File System),Hadoop分布式文件系统。从名字上就看出了它的两点功能。基本功能,存文件,是一个文件系统;另外这个文件系统是分布式的;
大数据学习
        从图上来看,HDFS的简单原理。Rack1,Rack2,Rack3是三个机架;1,2,3,4,5,6,7,8,9,10,11,12 是机架上的十二台服务器。Block A, Block B,Block C为三个信息块,也就是要存的数据。从整体布局上来看,信息块被分配到机架上。看似很均匀。这样分配的目的,就是备份,防止某一个机器宕机后,单点故障的发生。MapReduce,(Map + Reduce),就看成是计算的功能,可以对数据进行处理。

大数据学习
更多大数据学习课程问题,咨询在线老师 
大数据学习

或许你还对以下课程感兴趣:
 

标签:
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢