最大似然法
在统计学中,最大似然估计(英语:maximum likelihood estimation,缩写为MLE),也称最大概似估计,是用来估计一个概率模型的参数的一种方法。
预备知识
下边的讨论要求读者熟悉概率论中的基本定义,如概率分布、概率密度函数、随机变量、数学期望等。同时,还要求读者熟悉连续实函数的基本技巧,比如使用微分来求一个函数的极值(即极大值或极小值)。
最大似然估计的原理
给定一个概率分布
,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为
,以及一个分布参数
,我们可以从这个分布中抽出一个具有
个值的采样
,利用
计算出其似然函数:

若
是离散分布,
即是在参数为
时观测到这一采样的概率。若其是连续分布,
则为
联合分布的概率密度函数在观测值处的取值。一旦我们获得
,我们就能求得一个关于
的估计。最大似然估计会寻找关于
的最可能的值(即,在所有可能的
取值中,寻找一个值使这个采样的“可能性”最大化)。从数学上来说,我们可以在
的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的
值即称为
的最大似然估计。由定义,最大似然估计是样本的函数。
注意
这里的似然函数是指
不变时,关于
的一个函数。
最大似然估计不一定存在,也不一定唯一。
例子
离散分布,离散有限参数空间
考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样
并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概率记为
,抛出一个反面的概率记为
(因此,这里的
即相当于上边的
)。假设我们抛出了49个正面,31个反面,即49次H,31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为
,
,
.这些硬币没有标记,所以我们无法知道哪个是哪个。使用最大似然估计,基于二项分布中的概率质量函数公式,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个:

我们可以看到当
时,似然函数取得最大值。这就是
的最大似然估计。
离散分布,连续参数空间
现在假设例子1中的盒子中有无数个硬币,对于
中的任何一个
, 都有一个抛出正面概率为
的硬币对应,我们来求其似然函数的最大值:

其中
.我们可以使用微分法来求最值。方程两边同时对
取微分,并使其为零。
