科多大数据培训
全国24小时免费热线
15328019568
联系QQ
3048661160
开班时间
当前位置:首页 > 学习资讯 > 大数据内容 >

大数据培训学习:大数据分析中的计算智能方法之演化计算和群体智能

以遗传算法(geneticalgorithm,简称GA)为代表的演化计算和以粒子群优化(particleswarmoptimization,简称PSO)、蚁群优化(antcolonyoptimization,简称ACO)等为代表的群体智能算法是解决复杂优化问题的常

  以遗传算法(geneticalgorithm,简称GA)为代表的演化计算和以粒子群优化(particleswarmoptimization,简称PSO)、蚁群优化(antcolonyoptimization,简称ACO)等为代表的群体智能算法是解决复杂优化问题的常用方法。这类智能算法的主要意义在于:一方面,可以快速近似求解一些难解的问题,比如NP难问题;另一方面,还可用于约简问题的规模,从而解决那些由于数据量太大而不易解决的问题。大数据培训基地科多大数据带大家来详细了解一下。
大数据培训学习:大数据分析中的计算智能方法之演化计算和群体智能
  遗传算法具有对噪声不敏感、不需要先验知识等优势以及隐含的并行性,已经广泛用于解决复杂优化问题。另外,遗传算法还是进行数据约简的有效手段。在这类问题中,如果把特征组合看作一个染色体对其进行编码,并引入可以反映特征组合质量的适应度函数,就能通过选择、交叉和变异的遗传算子,高效地找出特征子集。此外,遗传算法还被用于确定复杂系统输入与输出之间的映射,即,所谓的基于遗传算法的机器学习(genetics-basedmachinelearning,简称GBML)。
  Aggarwal等人将遗传算法应用于高维空间中离群点的检测。在该方法中,离群点被视为原始特征空间的某个低维投影中,密度极低的局部区域内所包含的数据点。为了挖掘这些低维空间的低密度区域(异常模式),必须过滤掉冗余特征,找出能够凸显异常模式的特征子集。该方法首先对数据按照属性值进行网格化,将高维数据空间划分为等大小的“数据立方”;然后,以每个“数据立方”中的实际点数和期望点数的差来刻画稀疏程度(适应度函数);最后,迭代使用遗传算子,直至得到满意解。该方法通过进化计算完成数据的约简,消除了“维灾”的影响,但其假设各维度之间相互独立并且每个维度都符合均匀分布,而实际数据很难满足这些的假设,因此,应当进一步研究维度之间的相关性和概率分布对算法性能的影响。
  为了将GBML应用于大数据环境中,必须使其能够在可接受的时间范围内完成对巨量数据的处理。为此,Bacardit等人对大规模数据集中基于遗传算法的机器学习的改进策略进行了归纳和总结,将其分为4大类,即,软件的方法、硬件加速技术、并行计算模型以及以ApacheHadoop(http://hadoop。apache。org/)为代表的数据密集型计算模型。其中,软件的方法不涉及额外的硬件资源,是最为廉价和灵活的一类方法,包括窗口机制(windowingmechanism)、利用数据固有规律(exploitingregularity)、混合方法(hybridmethod)和适应度函数替代(fitnesssurrogate)这4大类方法。
  粒子群优化算法是一种模拟鸟群、鱼群等生物群社会行为的群体智能算法,其不易受问题的规模和非线性的影响,是一种应用广泛的高效优化技术。与遗传算法相比,粒子群优化的原理更简单,算法实现相对容易,收敛速度快,适于求解大数据环境下的复杂优化问题。然而在大数据应用中,数据往往具有高维的特征,而随着数据维度的增加,粒子群优化算法的性能会急剧退化,难以直接应用于大数据应用中。采用分而治之的策略是处理高维数据集上粒子群优化问题的直接思路。Li等人基于分治的思想,提出了一种可用于大规模高维数据空间优化问题的协同演化PSO算法。该算法使用动态的随机分组策略,将高维解空间划分为大小可变的低维子空间。而在此前,Yang等人已经从理论上证明了随机分组的策略可以增加相关变量被划分至同一子分量(subcomponent)的概率,并已经将其应用于大规模协同进化计算中。这一随机分组策略在高维优化问题中具有明显的优势。此外,该算法分别在个体最优和环拓扑邻域最优位置的周围,以柯西或高斯分布随机更新粒子的位置。这种位置更新策略提高了算法的搜索能力。在后续的研究中,Omidvar等人研究了如何使分组更加智能而不是简单地采用随机策略,提出了一种名为差分分组(differentialgrouping)的自动分组策略,使得不同分组间的变量之间的相互依赖度最小化。上述分治的策略关键在于如何“分”及如何“合”。虽然这类方法为解决高维粒子群优化问题提供了直接思路,但在面对不可分的问题时,这种策略仍然束手无策。
  蚁群优化(antcolonyoptimization,简称ACO)和粒子群优化等群智能算法还为大规模数据的约简提供了有效手段。例如,Aghdam等人将ACO应用于文本特征的约简,将特征表示为图中的节点,使用分类器的分类性能和特征子集的大小作为启发式信息来更新信息素,原始的特征约简就转化为如何让蚁群在图中找到满足优化终止条件的最短路径(特征子集)的问题;Wang等人提出了一种粗糙集与粒子群优化相结合的方法,通过粒子群优化求解粗糙集最小约简(reduct)的NP难问题。从相关研究来看,将多种方法结合起来的混合方法往往可以取得比单一技术更好的性能和约简效果。
  增强决策力和流程优化能力是大数据分析的主要目的之一,而科学研究与工程实践中许多决策问题本质上是最优化问题。在大数据环境中,优化问题不可避免地涉及到更多的决策变量和优化目标,形成更为复杂的多目标优化问题。这些问题中,不同的优化目标往往相互制约,相互冲突,可能某一个解对于其中一个特定的优化目标来说是较好的,但对于其他优化目标而言却是很差的,因此,多目标优化问题实际上就是要进行协调和折中以寻找一个解的集合,即,Pareto最优解集。目前,绝大部分多目标优化方法通过逼近Pareto前沿(Parerofront)进行优化。这类方法大都采用基于演化计算的启发式(meta-heuristic)搜索技术。与传统方法相比,这类算法不需要目标函数的梯度信息,不受目标函数的形式和性质(如连续性、凹凸性等)的限制,可以用于优化任意形式的目标函数,优化过程独立于具体的应用领域,不易受到具体领域的约束,因此,其具有比传统优化方法更广泛的应用范围。多目标优化已成为演化计算的一个重要研究方向。关于这方面的研究已有大量综述文章和专著。此外,PSO、ACO等计算智能方法也已被应用于多目标优化领域。
  现在科多大数据已经开通线上学习平台啦!大数据开发、数据分析、python爬虫等学习视频,想要进行大数据培训的小伙伴们可上科多大数据官网咨询免费领取学习账号哦~
最新资讯更多+
内容推荐更多+
在线课堂
猜你喜欢