• 1.摘要
  • 2.基本信息
  • 3.基本思想
  • 4.算法种类
  • 4.1.狭义期望最大算法
  • 4.2.K均值算法
  • 4.3.隐马尔科夫模型
  • 5.优缺点
  • 5.1.优点
  • 5.2.缺点
  • 6.模态分析中的应用

广义期望最大算法

广义期望最大算法(GeneralizedExpectation Maximization)是数据不完全或者存在缺失变量的情况下参数估计的迭代算法。算法的每一次迭代是由期望(Expectation)和极大(Maximization)两步操作构成,也是一种广义的渐进逼近的最优化算法,在定义一个最优化函数后,主要分为以下两步:1.根据参数调整模型(E步);2.根据模型调整参数(M步);E步和M步交替进行,直至得到最优解停止。

基本信息

  • 中文名

    广义期望最大算法

  • 外文名

    Generalized Expectation Maximization

  • 时间

    1977年

  • 基本领域

    计算机科学

  • 属性

    最优化算法

  • 使用范围

    数据缺失不完全

基本思想

广义期望最大算法的基本思想是首先在给出缺失数据初值的条件下估计出参数值,然后根据参数值估计出缺失数据的值;再根据估计出的缺失数据值对参数值进行更新,如此反复迭代直至收敛。所谓存在缺失数据可以有两种解释,一种情况是由于问题本身的不合理或观测条件的限制导致观测数据存在缺失变量,另一种情况是缺失变量本身并不存在,但是观测数据的似然函数优化比较复杂,而如果添加额外的隐(hidden)变量或潜在变量后的完全数据似然估计则比较简单。

算法种类

狭义期望最大算法

EM(Expectatioin-Maximalization)算法即期望最大算法,被誉为是数据挖掘的十大算法之一。它是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测到的隐变量。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内,从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在E步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个E步计算,这个过程不断交替进行。对于信息缺失的数据来说,EM算法是一种极有效的工具。

K均值算法

K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。

算法过程如下:

1)从N个文档随机选取K个文档作为质心。

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类。

3)重新计算已经得到的各个类的质心。

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。

隐马尔科夫模型

隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。HMM在生物信息科学、故障诊断等领域也开始得到应用。

在简单的马尔可夫模型(如马尔可夫链),所述状态是直接可见的观察者,因此状态转移概率是唯一的参数。在隐马尔可夫模型中,状态是不直接可见的,但输出依赖于该状态下,是可见的。每个状态通过可能的输出记号有了可能的概率分布。因此,通过一个HMM产生标记序列提供了有关状态的一些序列的信息。注意,“隐藏”指的是,该模型经其传递的状态序列,而不是模型的参数;即使这些参数是精确已知的,我们仍把该模型称为一个“隐藏”的马尔可夫模型。隐马尔可夫模型以它在时间上的模式识别所知,如语音,手写,手势识别,词类的标记,乐谱,局部放电和生物信息学应用。

隐马尔可夫模型可以被认为是一个概括的混合模型中的隐藏变量(或变量),它控制的混合成分被选择为每个观察,通过马尔可夫过程而不是相互独立相关。最近,隐马尔可夫模型已推广到两两马尔可夫模型和三重态马尔可夫模型,允许更复杂的数据结构的考虑和非平稳数据建模。

优缺点

优点