科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训学习:大数据分析中的计算智能方法之模糊系统

在大数据应用中,数据受到采集设备的精度、系统状态变化的随机性和非线性、自然环境等不可控因素的干扰,导致获得的数据普遍存在模糊性。除了采集过程中引入的模糊性之外,实

  在大数据应用中,数据受到采集设备的精度、系统状态变化的随机性和非线性、自然环境等不可控因素的干扰,导致获得的数据普遍存在模糊性。除了采集过程中引入的模糊性之外,实际应用中的数据往往还具有固有的模糊性,科多大数据培训带大家来学习一下。
大数据培训学习:大数据分析中的计算智能方法之模糊系统
  例如在电商网站、服务点评类网站、社交网络中,用户根据自己的主观感受表达倾向、发表评论,这些信息很难简单地以“好”、“坏”、“喜欢”、“不喜欢”的二值逻辑进行描述,通常要考虑其中蕴含的不完全、不精确或者不确定性,进而用语言进行更为详细的模糊概念的刻画。模糊系统研究的是一种模糊性现象,这种模糊性是由于事物之间差异的中间过渡性引起的划分上的不确定性,它弥合了二值逻辑中“非此即彼”的精确性与现实世界之间的鸿沟,使得概念的外延具有一种不分明性,增强了推理结果的可解释性,是一种已经得到广泛应用的计算智能方法,对于定性或以语言变量描述和分析大数据具有巨大的应用潜力和实用价值。
  模糊聚类作为一种非监督学习方法,可用于发现数据中隐含的未知模式。在大数据环境下,模糊聚类算法主要面临可扩展性的问题,即,算法的在大数据集上的时空效率及准度。和许多其他问题一样,提高聚类算法可扩展性的主要策略可归纳为采样、在线处理和分布式并行计算。Havens等人研究了大数据环境下的模糊c均值(fuzzycmeans,简称FCM)聚类算法,提出了3种新的FCM算法,包括随机采样并扩展的FCM算法(asimplerandomsamplingplusextensionFCM,简称rseFCM)、单次遍历核FCM算法(single-passkernelFCM,简称spkFCM)和在线核FCM算法(onlinekernelFCM,简称okFCM),通过实验分析了这些算法在时空复杂度、速度、准确率等方面的性能,并与同类算法和小数据集上的FCM算法进行了对比。研究还归纳总结了不同的FCM算法的适用情景,并给出了算法选择上的建议。对于基于核的模糊聚类算法,如何选择核、如何确定其适用场景,也是需要深入研究的问题。
  目前的在线模糊聚类算法大都是采用批量在线的方式,不能真正满足大数据流中逐个处理数据的需求。Wang等人提出了一种基于随机梯度下降的模糊聚类算法(SGFC),虽然实现了根据单个数据样本更新簇中心和隶属度矩阵,但这种方法容易受到簇中心初始化和噪声的影响,因此又进行了批量梯度和重复遍历的折中。此外,聚类算法的核心目标是发现数据中的未知规律,而仅以已知的标记数据来评价算法的有效性是不够全面的。如何评估聚类算法在大数据环境下的有效性,也是一个开放问题。
  Yang等人提出了一种核FCM聚类与支持向量机相结合的模糊分类算法。该算法首先利用核FCM算法分别对训练集的正负样本子集进行聚类;然后,分别在正负样本子集中选择彼此距离最远的两个簇组成新的训练集;最后,在此训练集上训练支持向量机并得到一个模糊分类器。该算法通过对训练集进行预处理,有效地降低了噪声和离群点对支持向量机性能的影响,这对于大数据中普遍存在的缺值、错误以及不一致等现象具有积极的意义。然而,该算法的计算复杂度较高,计算代价随着问题规模呈指数增长,尚不能直接推广到大规模数据集中。针对这一问题,是否可以将该分类算法与大规模数据集上的FCM聚类算法以及SVM相结合,采用在线处理、随机采样的方式,发展出一种能够有效地应对噪声和离群点的高可扩展性的模糊分类器,是一个值得继续研究的问题。
  从大数据中发现相关性关系具有重要的研究意义和应用价值。已发现的相关性规则又可以作为分类规则对未知数据进行预估,起到增强决策力和洞察力的作用。在现实世界中,需要使用模糊逻辑来软化相关性规则的边界和规则匹配的条件,进而形成一类问题,即,基于模糊规则的分类问题(fuzzyrule-basedclassification)。传统的模糊相关性规则挖掘算法是针对小数据集设计的,无法直接应用于大数据中。为此,Mangalampalli等人提出了一种名为FAR-HD的快速模糊相关性规则挖掘算法。该算法在高维大规模数据集上取得了明显优于之前算法的速度。在基于模糊规则的分类问题中,随着数据规模以及复杂性的增长,分类规则集的搜索空间呈指数增长,导致算法出现可扩展性的问题。Alcala-Fdez等人提出了一种针对高维数据集的基于模糊规则的分类方法。该方法包括3个步骤:首先,通过搜索树搜索模糊相关性规则;然后,对得到的规则集采用样本权重的方案进行压缩;最后,利用遗传算法进行规则筛选和调优,得到进一步约简后的规则子集。这种方法有效压缩了模糊分类规则集的规模,而且最终的规则前件包含更少的变量,降低了分类过程中的计算复杂度,提高了模型的可扩展性。但在该研究所使用的所有实验数据集中,最大变量个数和样本总数分别为90和19020,这样规模的数据集与实际应用中的大数据还存在不小的差距,因此,该方法是否足以应对大数据有待进一步的考证。
  现在科多大数据已经开通线上学习平台啦!大数据开发、数据分析、python爬虫等学习视频,想要进行大数据培训的小伙伴们可上科多大数据官网咨询免费领取学习账号哦~
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢