科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训资讯:大数据对知识工程的挑战

1977年,在第五届国际人工智能会议(IJCAI77)上,美国斯坦福大学计算机科学家费根堡姆首次提出了知识工程的概念。知识工程的概念提出之后,人工智能的原理与方法在知识系统领域发挥

1977年,在第五届国际人工智能会议(IJCAI77)上,美国斯坦福大学计算机科学家费根堡姆首次提出了知识工程的概念。知识工程的概念提出之后,人工智能的原理与方法在知识系统领域发挥了重大的作用。大数据时代的到来,使得这种作用更加明显。科多大数据带你看看究竟有些什么挑战,大数据培训又该何去何从。

知识工程包括五大活动:对知识的获取、验证、表示、推论以及对知识的解释。在知识的基础上,知识工程通过这五大活动构建专家系统和各种智能系统。相对于知识管理技术,知识工程关注的是知识产生和验证过程的动态变化,它的创新性更强、对数据的操作更加复杂,并且涉及多个相关领域的知识交叉。在知识工程的五大活动中,知识的获取具有更大的难度。下面分析一些大数据对知识工程的挑战问题。

大数据培训资讯:大数据对知识工程的挑战

首先,大数据知识工程需要对获取的数据进行合理的存储和表示。

清晰的数据存储形式更有利于发现数据的有用特征,剔除一些无用的数据属性。从数据本身来看,大数据知识工程涉及大量的非结构化数据,其数据结构多以数据流的形式到来。数据流数据是一种由实时、连续、有序的数据组成的序列,它是一种动态变化的数据。与传统的静态结构化数据相比,数据流数据具有连续、快速、难以预测数据趋势等特点。

考虑到大数据特征,数据的存储要求具有三个变化:

1)数据量升至PB级;
2)数据分析需求从常规分析转向深度分析;
3)硬件平台从高端转向中低端。


从数据的表示来看,已有的数据模型包括聚类分析、决策树、分类方法、频繁模式挖掘等。常见的聚类分析方法是通过寻找数据点的k个中心点来获取数据间的距离总和的最小值。对数据流数据的易变特点产生的概念漂移问题,已有使用k棵随机决策树组成的基分类器的双层窗口的分类算法。对数据流的频繁模式挖掘,往往存在实时性较差且查询粒度粗的问题。而采用快速启发式的方法可以兼顾到对数据流数据的实时处理和更细的查询粒度。这些模型在提取和刻画数据特征方面各有优劣,但它们都针对的是静态的数据,对大数据的表示和数据建模难以适应。

同数据流相对应的是特征流的问题。含有特征流的应用中,无法预知整个特征空间的相关知识。特征流是在时间上连续到来的特征序列,随着特征数量的不断增加,训练集的个数可能是固定的、也可能在变化之中。

在线特征的选择具有三大挑战问题:

1)特征的规模和数量随着时间不断增长;
2)巨大的特征空间具有未知和规模无限大的可能性;
3)整个空间的特征过于庞大,为了学习整个空间的特征,学习算法无法从最初处理整个特征集。


这三大挑战问题,同大数据的海量有着密切的关系。传统的特征选择面对有规律增长的特征数量,可以不必对特征流加以考虑。但大数据为特征的选择增加了新的难度,从而引发了新的研究热点。针对特征流的问题,在现有的特征选择算法的基础上,对特征之间的相关性和特征冗余加以考虑,能够提高特征选择的效率,基于特征更为精确和清晰的表示方式。

大数据培训资讯:大数据对知识工程的挑战

除此以外,对数据的训练时间或者使用批处理来处理观测值的时候,我们对在线学习的响应时间是有要求的。

如果响应时间过长,那么由于数据隐藏的信息可能会随着时间演化,则我们得到的信息也许就会对我们在生产、生活、商业决策方面的应用产生误导。基于处理大规模高维数据的目的,目前已经提出了多种有效的算法。大数据环境下的知识发现所需要的算法,需要避免输入数据时在数值或者特征上的冗余,否则数据的维度会过高。同时在学习的过程中不断更新以降低计算的复杂度,对于高维的数据,我们还可以使用在线增量学习方法,实现模型和函数的足够的精确度和近似过程具有足够的泛化。从碎片化知识的融合来看,碎片化知识的融合是为了从单个数据源的局部数据中获取整个大数据集合的全局数据特征。碎片化知识的融合使用现有的线性融合方法会产生一些问题,例如,如果我们采用基于形式化逻辑的知识融合,知识融合的过程中会被局部知识的表示形式限制,对于结构化数据这样的融合方式没有问题,但在非结构化的数据中,提取出的碎片化知识不具有统一的数据结构和形式。大数据环境下,为了获取数据中的知识,我们可以采用在线学习的方式。在线学习面对数据流数据,对流中可能出现的概念漂移问题能有效地解决。它不仅仅是把碎片化知识“拼凑”在一起,而是从碎片化知识之间的关联得到新的全局知识,这和对单数据源的批处理有所区别。

在大数据的知识工程中,还存在着一些数据可用性的挑战。我们这里所探讨的大数据的可用性,包含数据的一致性、完整性、精确性、时效性和实体统一性五个方面。大数据的知识工程旨在形成对个性化服务有价值和指导作用的专家系统。从融合的碎片知识,我们可以用知识图谱表示大数据中隐藏的大知识。知识图谱的节点表示碎片化的知识,连接节点的边我们可以看作是碎片化之间的关联。我们需要应对的问题是如何量化这些边和节点的关系,尤其是在动态变化的大数据关系中,已得到的知识图谱结构也会产生变化。现有的算法需要从头推算整个数据的结构并更新知识图谱,这种做法相当耗费时间。并且,在海量数据中形成的知识图谱,由于我们无法对每个观测数据都做到保留,经过数据处理和清洗的大数据集形成的知识图谱,必然存在诸如数据值的丢弃、噪声、不平衡数据等问题。因此,大数据的知识工程需要对获取的知识的真实性提出评估机制和演化关系的更新标准。

大数据知识工程还应考虑知识自动化带来的问题。互联网、大数据、云计算等技术的发展,虽然带来了更好的数据处理和分析手段,但许多数据和信息管理应用中仍然存在数据过载的问题。大数据知识工程最终希望提供以需求为导向的知识服务,但过载数据的存在降低了服务的可用性和精确性。知识的自动化指的不是知识本身自动产生,但可以诱发知识的传播、获取、分析、影响、产生等方面的重要变革。知识的自动化是信息自动化的自然延伸和提高,对于具有较大不确定性、冗余性、不一致性的数据和社会信息,仅依靠人类的智力很难对海量大数据进行更有效分析。采用以数据作为驱动的方法,将物理空间产生的数据和虚拟空间产生的数据结合起来进行分析,将会更有利于解决数据的过载。

大数据培训资讯:大数据对知识工程的挑战


在大数据时代,利用知识工程的思想和方法,对大数据进行获取、验证、表示、推论和解释,通过挖掘出的知识来形成解决问题的专家系统,是本文所倡导的大知识,也称为大数据知识工程。在大数据时代的背景下进行知识工程活动具有诸多挑战。这主要是由于大数据的本质特征导致的,涉及到异构、自治的海量多源数据,隐藏在数据下的知识难以管理和发现。大数据时代,面临挑战的不只是知识工程,还有在座的各位。只有不断提高自己的竞争力,才能不被时代淘汰。更多大数据培训资讯,关注科多大数据即可获取。


最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢