科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据分析学习:我们面对的六种关键性分析领域

根据数据的生成方式和结构特点不同,本文将数据分析划分为6个关键技术领域: 1)结构化数据.一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提


根据数据的生成方式和结构特点不同,本文将数据分析划分为6个关键技术领域:
  • 1)结构化数据.一直是传统数据分析的重要研究对象,目前主流的结构化数据管理工具,如关系型数据库等,都提供了数据分析功能.
  • 2)文本.是常用的存储文字传递信息的方式,也是最常见的非结构化数据
  • 3)Web数据.Web技术的发展,极大地丰富了获取和交换数据的方式,Web数据高速的增长,使其成为大数据的主要来源.
  • 4)多媒体数据.随着通讯技术的发展,图片、音频、视频等体积较大的数据,也可以被快速地传播,由于缺少文字信息,其分析方法与其他数据相比,具有显著的特点.
  • 5)社交网络数据.从一定程度上反映了人类社会活动的特征,具有重要的价值.
  • 6)移动数据.与传统的互联网数据不同,具有明显的地理位置信息、用户个体特征等其他信息.
结构化数据分析、文本分析、Web分析、多媒体分析、社交网络分析和移动分析,这6个大数据分析领域分类旨在强调数据的不同特性,其中的一些领域可能会利用类似的底层技术,或者存在交集,这样分类的目的在于理解和激发数据分析领域中的关键问题和技术,在大数据培训过程中可能会面临很多

结构化数据分析

商业和科研领域会产生大量的结构化数据,而这些结构化数据的管理和分析依赖于数据库、数据仓库、OLAP和业务流程管理(businessprocessmanagement,BPM)的成熟商业化技术.得益于关系型数据库技术的发展,结构化数据的分析方法较为成熟,大部分都以数据挖掘和统计分析为基础.

文本分析

存储信息最常见的形式就是文本,例如电子邮件通信、公司文件到网站页面、社交媒体内容等.因此,文本分析被认为比结构化数据挖掘更具有商业化潜力.通常情况下,文本分析,也称为文本挖掘,指的是从非结构化文本中提取有用信息和知识的过程.文本挖掘是一个跨学科领域,涉及到信息检索、机器学习、统计、计算语言学尤其是数据挖掘.大部分文本挖掘系统都以文本表达和自然语言处理(NLP)为基础,重在后者.文档介绍和查询处理是开发向量空间模型、布尔检索模型,概率检索模型的基础,而这些模型又构成了搜索引擎的基础.
自20世纪90年代早期以来,搜索引擎已经演化成成熟的商业系统,通常包括快速分布式爬行、有效地倒排索引、基于inlink的网页排序和搜索日志分析.NLP技术可以提高关于期限的可用信息,这样计算机就可以分析、理解甚至产生文本.下面是一些经常采用的方法:词法获取、词义消歧、词性标注、概率上下文无关文法.以NLP为基础,一些技术已经被开发出来并可以应用于文本挖掘,其中包括信息提取、主题模型、文本摘要、分类、聚类、答疑和意见挖掘.信息提取是指自动地从文本中提取特定种类的结构化信息.命名实体识别(NER)技术作为信息提取的一个子任务,旨在识别归属于预定类别(如人物、地点和组织等)的文本中的原子实体,近来已成功开发用于新的分析和医学领域的应用.主题模型以“文档由主题组成,而主题是词汇的概率分布”这一观点建立.
主题模型是文档生成模型,规定了生成文档的概率程序.现在已经有各种各样的概率主题模型用于分析文档的内容和词汇的意义.文本摘要是为了从单个或多个输入文本文件中生成一个缩减的摘要或摘录.文本摘要的各种类型可以归结为具象性摘要和抽象性摘要.具象性摘要从源文档中选择重要的句子和段落等并把它们浓缩成较短的形式.而抽象性摘要可以理解原文本并可以根据语言学方法用较少的词汇对原文本进行复述.
文本分类的目的在于通过将文档置入预定的主题集来识别文档的主题取向.基于图表示和图挖掘的文本分类最近吸引了大家的研究兴趣.文本聚类用于给类似的文档分组,文档聚类通过预定的主题对文档进行分类.在文本聚类中,文档可以出现在多个副主题当中.通常采用数据挖掘领域的一些聚类算法来计算文档的相似性,但研究显示可以利用结构关系信息来增强聚类结果.答疑系统主要设计用于处理如何寻找给定问题的最佳答案.它涉及问题分析、源检索、答案提取和回答演示方面的不同技术.答疑系统可以应用于许多领域,其中包括教育、网站、健康和国防.意见挖掘与情感分析类似,是指提取、分类、理解和评估新闻、评论和用户生成的其他内容中表述的意见的计算技术.它可以提供理解公众和客户对社会事件、政治运动、公司策略、营销活动和产品喜好的有利机会.
大数据分析学习:我们面对的六种关键性分析领域

Web分析

在过去的10年中,我们见证互联网信息的爆炸式增长,同时Web分析作为一个活跃的研究领域也已经出现.Web分析旨在从Web文档和服务中自动检索、提取和评估信息用以发现知识.Web分析建立在几个研究领域之上,包括数据库、信息检索、自然语言处理和文本挖掘等.我们可以根据要挖掘的Web部分的不同将Web分析划分为3个相关领域:Web内容挖掘、Web结构挖掘和Web使用挖掘.
Web内容挖掘处理Web页面内容中有用信息或知识的发现,Web内容涉及多种类型的数据,例如文本、图像、音频、视频、代号、元数据以及超链接等.对图像、音频和视频挖掘的研究被称为多媒体分析,将在下一部分讨论.由于大部分Web内容数据为非结构化文本数据,大部分研究工作都是围绕文本和超文本内容展开.超文本挖掘涉及到具有超级链接的半结构化HTML页面的挖掘.监督学习和分类在超文本挖掘中扮演重要角色,例如电子邮件、新闻组管理和维护Web目录等.Web内容挖掘可以采用两种方法进行:信息检索方法和数据库的方法.信息检索方法主要是协助或改善信息查找或根据推断或征求用户配置文件为用户过滤信息.数据库方法试图模拟并整合Web上的数据,这样就可以进行比基于关键词的搜索更为复杂的查询.
Web结构挖掘涉及到发现Web链接结构相关的模型.这里的结构指的是网站中或网站间链接的示意图.模型是基于具有或没有链接描述的超链接的拓扑结构建立的.该模型揭示了不同网站间的相似性和相互关系,可以用来为网站页面分类.
PageRank和CLEVER方法充分利用了该模型来查找相关网站页面.主题爬取是另外一个利用该模型的成功案例.主题爬虫的目的在于有选择性地找出与预定的主题集相关的页面.主题爬虫会分析其爬行边界来寻找与爬取最有可能相关的链接并避免涉及Web的不相干区域,而不是收集和索引所有可访问的网页文件,来回答所有可能的即席查询.这样可以节约大量硬件和网络资源并帮助保持爬取更新.
Web使用挖掘是现在大数据培训机构常见的培训项目,它是希望挖掘Web会话或行为产生的辅助数据,而Web内容挖掘和Web结构挖掘使用的是Web上的主要数据.Web使用数据包括来自Web服务器访问日志、代理服务器日志、浏览器记录、用户配置文件、登记数据、用户会话或交易、缓存、用户查询、书签数据、鼠标点击和滚动以及用户和Web交互产生的任何其他数据.随着Web服务和Web2.0系统的成熟和普及,Web使用数据正变得越来越多样化.Web使用挖掘在个性化空间、电子商务、网络隐私安全和其他一些新兴领域内扮演着关键角色.例如,协同推荐系统通过利用用户偏好的异同来使电子商务个性化.

多媒体分析

近来,多媒体数据(主要包括图像、音频和视频)正以惊人的速度增长,几乎无处不在.由于多媒体数据多种多样而且大多数都比单一的简单结构化数据和文本数据包含更丰富的信息,提取信息这一任务正面临多媒体数据语义差距的巨大挑战.多媒体分析的研究涵盖的学科种类非常多,从多媒体摘要、多媒体注解、多媒体索引和检索、多媒体的建议和多媒体事件检测等,此处仅举最近的几个研究重点.
音频摘要可以通过从原数据中简单地提取突出的词或句子或合成新的表述来实现.
视频摘要可以理解最重要或更具代表性的视频内容序列,可以是静态的,也可以是动态的.
静态视频摘要方法要利用一个关键帧序列或上下文敏感的关键帧来代表视频.这些方法都很简单,而且已经应用到商业应用(例如Yahoo,AltaVisa和Google等)中,但其可播放性很差.
而动态视频摘要方法是使用一系列视频片段来表示视频,另外,还可以配置低级的视频功能并采取其他平滑措施使最终的摘要看起来更为自然.
面向主题的多媒体摘要系统,该系统可以为一次观看完毕的视频生成基于短信息的重新计算.多媒体注释指的是为图像和视频指派一组在句法和语义级别上描述其所含内容的标签.多媒体索引和检索指的是描述、存储并组织多媒体信息和协助人们方便、快捷地查找多媒体资源.多媒体推荐的目的是要根据用户的喜好来推荐特定的多媒体内容.
大多数现有的推荐系统分为两种:基于内容系统和基于协同过滤的系统.基于内容的方法识别用户或用户兴趣的一般特征并向用户推荐具有相似特征的其他内容,这些方法纯粹依赖于内容相似度测量,但大多受内容分析有限和过度规范困扰.基于协同过滤的方法识别具有相似兴趣的人群并根据小组成员的行为推荐内容.现在又引入了一种混合方法,融合了基于协同过滤和内容两种方法的长处来提高推荐的质量.
多媒体时间检测,是检测基于事件套件(eventkit)的视频剪辑内某一事件的发生情况,而事件套件中含有一些有关概念和一些示例视频的文本描述.目前视频事件检测的研究仍处在初级阶段.事件检测的现有研究大多集中在体育或新闻事件以及监控录像中的奔跑或不寻常事件等之类的重复模式事件.作者在文献中针对处理少数正例样本(positivetrainingexamples)的多媒体事件检测提出了一种新算法.

社交网络分析

网络分析从最初的计量分析和社会学网络分析一直演化到21世纪初新兴的在线社交网络分析.许多流行的在线社交网络,例如Twitter,Facebook和LinkedIn等近年来都日益普及.这些在线社交网络通常都含有大量的链接和内容数据,其中链接数据主要为图形结构,表示两个实体之间的通信,而内容数据则包含有文本、图像以及其他网络多媒体数据.这是大数据分析培训常见的项目之一。
这些网络的丰富内容给数据分析带来了前所未有的挑战,同时也带来了机遇.按照以数据为中心的观点来看,社交网络上下文的研究方向可以分为两大类:基于链接的结构分析和基于内容的分析.
基于链接的结构分析研究一直着力于链接预测、社区发现、社交网络进化和社会影响分析以及其他一些领域.社交网络可以作为图形实现可视化,图形中的定点对应于一个人,同时其中的边表示对应人士之间的某些关联.由于社交网络是动态网络,不断会有新的顶点和边添加到图形中去.链接预测希望能预测两个节点之间未来建立联系的可能性.许多技术都可以用于链接预测,例如基于特征的分类、概率方法以及线性代数等.基于特征的分类可以为定点对选择一组特征,然后再利用现有的链接信息来生产二元分类器以预测未来的链接情况.
概率方法尝试为社交网络中的定点之间的连接概率建立模型.线性代数方法要根据降秩相似矩阵计算两个几点之间的相似性.社区指的是一个子图结构,该结构中子图中的定点上的边的密度更大,而子图间的定点上的变得密度较低.人们提出并比较了许多针对社区检测的方法,大部分的方法都是基于拓扑并依赖于捕获社区结构概念的目标函数.Du等人利用现实生活中存在的重叠社区的性质提出了一种更为有效的大规模社交网络社区检测方法.针对社交网络的研究旨在寻找解释网络演化的法则和推导模型.一些实证研究发现近似偏见(proximitybias)、地域限制和其他一些因素在社交网络的演化过程中起着重要作用,同时还提出了一些生成方法来协助网络和系统设计.社交影响是指个人受网络中其他人的影响而改变自身行为.社交影响的强弱取决于人与人之间的关系、网络距离、时间效应、网络与个人的特点等许多因素.营销、广告、推荐和其他许多应用都可以通过定性和定量测量个人对其他人的影响力获取好处.通常情况下,如果将社交网络之间的内容增殖考虑在内,基于链接的结构分析的性能都可以进一步改进.得益于Web2.0技术的革命性进展,社交网络中生成的内容呈爆炸性增长.
社交网络中基于内容的分析研究指的是社交媒体分析.社交媒体内容包括文本、多媒体、定位和评论.几乎所有的有关结构化分析、文本分析和多媒体分析的研究主题都可以解释为社交媒体分析,但社交媒体分析正面临着前所未有的挑战.首先,我们需要在合理的时间期限内自动分析大量的而且不断增长的社交媒体数据.其次,社交媒体数据中含有许多噪声数据.例如博客圈中存在大量垃圾博客,Twitter中的trivialTweets同样如此.
社交网络是动态网络,常常在很短的时间内频繁变化和更新.社交媒体紧贴于社交网络,因此社交媒体分析不可避免地要受社交网络分析的影响.社交网络分析指的是社交网络上下文,尤其是社交和网络结构特征的文本分析和多媒体分析.目前社交媒体分析的研究仍处在初级阶段.社交网络文本分析的应用包括关键字搜索、分类、聚类和异构网络中的迁移学习.关键字搜索试图同时使用内容和链接行为来进行搜索.这一应用背后隐藏的含义为含有类似关键字的文本文档通常都链接在一起.在分类的过程中,假定社交网络中的节点都具有标签,然后再将这些加标的节点用于分类目的.在聚类过程中,研究人员尝试确定具有类似内容的节点集,并以此进行聚类.鉴于社交网络包含有大量的相互链接的不同种类对象的信息,例如文章、标签、图像和视频等,异构网络中的迁移学习旨在不同的链接之间迁移信息知识.社交网络中的多媒体数据集按照结构化的形式组织,纳入了丰富的信息内容,例如语义本体论、社会互动、社区媒体、地理地图以及多媒体意见.社交网络中的结构化多媒体分析研究也被称为多媒体信息网络.多媒体信息网络的链接结构主要为逻辑型结构,对多媒体网络中的多媒体来说至关重要.多媒体信息网络中的逻辑连接结构可以分为4类:语义本体、社区媒体、个人照片相册和地理位置.我们可以根据逻辑连接结构进一步改善检索系统、推荐系统结果、协作标签系统和其他一些应用的结果.

移动分析

随着移动计算的快速增长,世界上的移动终端(例如移动电话、传感器等)和应用也越来越多.截止到2013年4月,安卓应用提供了超过650000个应用,几乎涵盖了所有可以想见的种类.
截至2012年底,每个月的移动数据流量已经达到了885PB.大量的数据和应用为移动分析开拓了广阔的研究领域,同时也带来了不少的挑战.总体上来说,移动数据的特征十分独特,例如移动感知、活动灵敏、嘈杂而且有大量冗余.
近来不同的领域中均出现了新的移动分析研究来应对挑战.由于移动分析研究远未成熟,我们仅介绍一些最近的而且最具有代表性的分析应用.随着移动电话用户数量的增长以及功能的改善,移动电话如今能够建立和维护社区,这些社区既可以区域进行划分,又可以文化兴趣进行划分,例如最近出现的微信.传统的互联网社区或社交网络社区缺乏成员间的在线互动,而且只有在成员在个人电脑前时社区才会活跃.而与此相反,移动电话可以支持随时随地的交互.移动社区被定义为一群具有相同爱好(即健康、安全、娱乐等)的人首先在网络上聚在一起,然后再亲自会面制定共同目标,商定措施以实现目标,再接着就开始实施其计划.射频识别(radiofrequencyidentification,RFID)技术使得传感器可以在没有光线的情况下远距离读取与标签相关的唯一产品识别码(EPC).
这些标签可以按照符合成本效益的方式识别、定位、跟踪和监控物理对象,因此RFID广泛应用于库存管理和物流行业.近年来无线传感器、移动通信技术和流处理领域的进展使得人们可以建立体域网来实时监测个人身体健康状况.。
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢