科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

学习大数据所需要具备的素养是什么

大数据学习需要怎样的素养?有些人虽然试着学习了大数据,但是效果并不理想。因为并不是所有的人都适合学习大数据,但是在养成相应的素质、思维之后,我们就能够更好地学习大

大数据学习需要怎样的素养?有些人虽然试着学习了大数据,但是效果并不理想。因为并不是所有的人都适合学习大数据,但是在养成相应的素质、思维之后,我们就能够更好地学习大数据,得到我们想到的能力,下面是科多小编转载的大数据学习的素养。
大数据学习的素养要点整理:
1.注意业务驱动;2.擅长利用开源;3.注意以点带面;4.以实践为重。
学习大数据所需要具备的素养是什么



(1)大数据学习要业务驱动,不要技术驱动。
数据科学的核心能力是解决问题。
 大数据的核心目标是数据驱动的智能化,要解决具体的问题,不管是科学研究问题,还是商业决策问题,抑或是政府管理问题。
 所以学习之前要明确问题,理解问题,所谓问题导向、目标导向,这个明确之后再研究和选择合适的技术加以应用,这样才有针对性,言必hadoop,spark的大数据分析是不严谨的
 不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模,随时间变化数据流需要序列建模,图像音频和视频多是时空混合建模;大数据处理如采集需要爬虫、倒入导出和预处理等支持,存储需要分布式云存储、云计算资源管理等支持,计算需要分类、预测、描述等模型支持,应用需要可视化、知识库、决策评价等支持。所以是业务决定技术,而不是根据技术来考虑业务,这是大数据学习要避免的第一个误区。
 (2)大数据学习要善用开源,不要重复造轮子。
数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让我们跨入了移动互联网时代,智能硬件开源将带领跨入物联网时代,以Hadoop和Spark为代表的大数据开源生态加速了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨头拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加速人工智能技术的发展。
 数据科学的标配语言R和Python更是因开源而生,因开源而繁荣,诺基亚因没把握开源大势而衰落。为什么要开源,这得益于IT发展的工业化和构件化,各大领域的基础技术栈和工具库已经很成熟,下一阶段就是怎么快速组合、快速搭积木、快速产出的问题,不管是linux,anroid还是tensorflow,其基础构件库基本就是利用已有开源库,结合新的技术方法实现,组合构建而成,很少在重复造轮子。
 另外,开源这种众包开发模式,是一种集体智慧编程的体现,一个公司无法积聚全球工程师的开发智力,而一个GitHub上的明星开源项目可以,所以要善用开源和集体智慧编程,而不要重复造轮子,这是大数据学习要避免的第二个误区。
 (3)大数据学习要以点带面,不贪大求全。
数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析,我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。
 我们的精力很有限,短时间内很难掌握多个领域的大数据理论和技术,数据科学要把握好碎片化和系统性的关系。
 何为碎片化,这个碎片化包括业务层面和技术层面,大数据不只是谷歌,亚马逊,BAT等互联网企业,每一个行业、企业里面都有它去关注数据的痕迹:一条生产线上的实时传感器数据,车辆身上的传感数据,高铁设备的运行状态数据,交通部门的监控数据,医疗机构的病例数据,政府部门的海量数据等等,大数据的业务场景和分析目标是碎片化的,而且相互之间分析目标的差异很大;另外,技术层面来讲,大数据技术就是万金油,一切服务于数据分析和决策的技术都属于这个范畴,其技术体系也是碎片化的。
 那怎么把握系统性呢,不同领域的大数据应用有其共性关键技术,其系统技术架构也有相通的地方,如系统的高度可扩展性,能进行横向数据大规模扩张,纵向业务大规模扩展,高容错性和多源异构环境的支持,对原有系统的兼容和集成等等,每个大数据系统都应该考虑上述问题。如何把握大数据的碎片化学习和系统性设计,离不开前面提出的两点误区,建议从应用切入、以点带面,先从一个实际的应用领域需求出发,搞定一个一个技术点,有一定功底之后,再举一反三横向扩展逐步理解其系统性技术。
 (4)大数据学习要勇于实践,不要纸上谈兵。
数据科学还是数据工程?
 大数据只有和特定领域的应用结合起来才能产生价值,数据科学还是数据工程是大数据学习要明确的关键问题,搞学术发paper数据科学OK,但要大数据应用落地,如果把数据科学成果转化为数据工程进行落地应用,难度很大,这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程,从业人员自身也是需要审视思考的。
 工业界包括政府管理机构如何引入研究智力,数据分析如何转化和价值变现?数据科学研究人员和企业大数据系统开发工程人员都得想想这些关键问题。
 目前数据工程要解决的关键问题主线是数据(Data)
 大数据如何走出实验室和工程化落地,最重要的有四点:
一是不能闭门造车,模型收敛了就想当然万事大吉了;
二是要走出实验室充分与业界实际决策问题对接;
三是关联关系和因果关系都不能少,不能描述因果关系的模型无助于解决现实问题;
四是注重模型的迭代和产品化,持续升级和优化,解决新数据增量学习和模型动态调整的问题。
 所以,大数据学习一定要清楚我是在做数据科学还是数据工程,各需要哪些方面的技术能力,现在处于哪一个阶段等,不然为了技术而技术,是难以学好和用好大数据的。

本文章很好的从实际出发,剖析了一般人学习大数据可能陷入的误区。大数据技术是一门数据科学,是为了解决现实问题的学问。因此从技术出发是说明学习的方向,单纯的看书是没用的。擅长利用开源,是因为现在可以说程序员很多工作都是在网上搜索合适的解决方案,然后修改为合适的实际的方案,大数据工作作为同为程序员的一例工作也同样面临这个情况,并不是说学习就没有价值,而是网上已经有的成熟解决方案是可以节约我们时间的,让我们有更多时间理解原理,同时我们也可以对开源分享的工作做出贡献。
以点带面是说我们需要研究里面的关键点,多个关键点的大数据技术组合起来才是具有实际工作意义的大数据能力。
最后是大数据非常注重实践,并不是自己的模拟模型能够运行就能解决问题,而是要落实到实际工作上才是有意义的大数据学习能力。

那么具体我们要怎么实施呢?
落实起来其实无非就是,认真看书,多看网上数据科学专家发表的文章,追上最新的业界动态,并且积极使用最新的技术来解决问题,获得相应的解决问题的思路。初学者多多实践,多做几个项目,外面的零活接一下,看看实际做出来的效果能不能让企业满意。这是科多小编从这篇文章得出来的结论,希望大家能够得到比较好的大数据学习效果
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢