马尔可夫模型

马尔可夫模型（Markov Model）是一种统计模型，广泛应用在语音识别，词性自动标注，音字转换，概率文法等各个自然语言处理等应用领域。经过长期发展，尤其是在语音识别中的成功应用，使它成为一种通用的统计工具。

基本信息

中文名
马尔可夫模型
外文名
Markov Model
特点
语音识别中的成功应用
领域
数学、统计学
应用
语音词性标注人力资源供给预测
本质
一种统计模型

模型简介

马儿可夫过程

到目前为止，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让人们由衷地感叹数学模型之妙。

马尔可夫（1856~1922），苏联数学家。切比雪夫的学生。在概率论、数论、函数逼近论和微分方程等方面卓有成就。

人物介绍

马尔可夫

马尔可夫是彼得堡数学学派的代表人物。以数论和概率论方面的工作著称。他的主要著作有《概率演算》等。在数论方面，他研究了连分数和二次不定式理论，解决了许多难题。在概率论中，他发展了矩法，扩大了大数律和中心极限定理的应用范围。马尔可夫最重要的工作是在1906～1912年间，提出并研究了一种能用数学分析方法研究自然过程的一般图式——马尔可夫链。同时开创了对一种无后效性的随机过程——马尔可夫过程的研究。马尔可夫经多次观察试验发现，一个系统的状态转换过程中第n次转换获得的状态常决定于前一次（第n-1次）试验的结果。马尔可夫进行深入研究后指出：对于一个系统，由一个状态转至另一个状态的转换过程中，存在着转移概率，并且这种转移概率可以依据其紧接的前一种状态推算出来，与该系统的原始状态和此次转移前的马尔可夫过程无关。马尔可夫链理论与方法已经被广泛应用于自然科学、工程技术和公用事业中。

Markov链

因安德烈·马尔可夫（Andrey Markov，1856－1922）得名，是数学中具有马尔可夫性质的离散时间随机过程。该过程中，在给定当前知识或信息的情况下，过去（即当前以前的历史状态）对于预测将来（即当前以后的未来状态）是无关的。

时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为Xn=X(n),n=0,1,2…

马尔可夫链是随机变量X1,X2,X3…的一个数列。这些变量的范围，即他们所有可能取值的集合，被称为“状态空间”，而Xn的值则是在时间n的状态。如果Xn + 1对于过去状态的条件概率分布仅是Xn的一个函数，则

P(Xn+1=x∣X0,X1,X2,…，Xn)=P(Xn+1=x∣Xn)

这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。

马尔可夫在1906年首先做出了这类过程。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。

应用

主要应用于语音识别、音字转换、词性标注。

自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题--一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，人们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。比如一个典型的通信系统中：其中s1，s2，s3...表示信息源发出的信号。o1,o2,o3...是接受器接收到的信号。通信中的解码就是根据接收到的信号o1,o2,o3...还原出发送的信号s1，s2，s3...。

其实人们平时在说话时，脑子就是一个信息源。人们的喉咙（声带），空气，就是如电线和光缆般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，那么计算机要做的就是语音的自动识别。同样，在计算机中，如果我们要根据接收到的英语信息，推测说话者的汉语意思，就是机器翻译；如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思，那就是自动纠错。那么怎么根据接收到的信息来推测说话者想表达的意思呢？人们可以利用叫做"隐含马尔可夫模型" （HiddenMarkovModel）来解决这些问题。以语音识别为例，当我们观测到语音信号o1,o2,o3时，要根据这组信号推测出发送的句子s1,s2,s3。显然，人们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知o1,o2,o3,...的情况下，求使得条件概率

P(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...