• 1.摘要
  • 2.基本信息
  • 3.概念
  • 4.定义
  • 5.特征选择
  • 6.方法

信息增益

信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。

在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。

基本信息

  • 中文名

    信息增益

  • 外文名

    Kullback–Leibler divergence

  • 又称

    information divergence

  • 定义

    概率分布

概念

信息增益(Kullback–Leibler divergence)又称information divergence,information gain,relative entropy 或者KLIC。

在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。

尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不是。就比如信息增益不是对称的,从P到Q的信息增益通常不等于从Q到P的信息增益。信息增益是f增益(f-divergences)的一种特殊情况。在1951年由Solomon Kullback 和Richard Leibler首先提出作为两个分布的直接增益(directed divergence)。它与微积分中的增益不同,但可以从Bregman增益(Bregman divergence)推导得到。

定义

设离散随机变量的概率分布P和Q,它们的信息增益定义为

其中分布P和Q必须是概率分布,而且对于任何P(i)>0,必须有Q(i)>0。当P(i)=0时,公式的值为0。从公式看,信息增益是以分布P为权重的P和Q对数差值的加权平均。

信息增益的连续分布形式:

其中p和q表示P和Q的密度概率函数

更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为

假设右式存在,dQ/dp是Q关于P的Radon-Nikodym导数,

如果P关于Q也绝对连续,那么上式可变为

上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从P到Q的信息增益可定义为

当信息以比特为单位时,公式中的对数的基数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。