• 1.摘要
  • 2.预备知识
  • 3.最大似然估计的原理
  • 4.例子
  • 4.1.离散分布,离散有限参数空间
  • 4.2.离散分布,连续参数空间
  • 4.3.连续分布,连续参数空间
  • 5.性质
  • 5.1.泛函不变性
  • 5.2.渐近线行为
  • 5.3.偏差
  • 6.历史

最大似然法

在统计学中,最大似然估计(英语:maximum likelihood estimation,缩写为MLE),也称最大概似估计,是用来估计一个概率模型的参数的一种方法。

预备知识

下边的讨论要求读者熟悉概率论中的基本定义,如概率分布、概率密度函数、随机变量、数学期望等。同时,还要求读者熟悉连续实函数的基本技巧,比如使用微分来求一个函数的极值(即极大值或极小值)。

最大似然估计的原理

给定一个概率分布image,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为image,以及一个分布参数image,我们可以从这个分布中抽出一个具有image个值的采样image,利用image计算出其似然函数:

image

image是离散分布,image即是在参数为image时观测到这一采样的概率。若其是连续分布,image则为image联合分布的概率密度函数在观测值处的取值。一旦我们获得image,我们就能求得一个关于image的估计。最大似然估计会寻找关于image的最可能的值(即,在所有可能的image取值中,寻找一个值使这个采样的“可能性”最大化)。从数学上来说,我们可以在image的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的image值即称为image最大似然估计。由定义,最大似然估计是样本的函数。

注意

这里的似然函数是指image不变时,关于image的一个函数。

最大似然估计不一定存在,也不一定唯一。

例子

离散分布,离散有限参数空间

考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样image并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概率记为image,抛出一个反面的概率记为image(因此,这里的image即相当于上边的image)。假设我们抛出了49个正面,31个反面,即49次H,31次T。假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。这三个硬币抛出正面的概率分别为image, image, image.这些硬币没有标记,所以我们无法知道哪个是哪个。使用最大似然估计,基于二项分布中的概率质量函数公式,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个似然函数取以下三个值中的一个:

image

我们可以看到当image时,似然函数取得最大值。这就是image的最大似然估计。

离散分布,连续参数空间

现在假设例子1中的盒子中有无数个硬币,对于image中的任何一个image, 都有一个抛出正面概率为image的硬币对应,我们来求其似然函数的最大值:

image

其中image.我们可以使用微分法来求最值。方程两边同时对image取微分,并使其为零。

image