Linxii's Blog
ML-DL-RL的信息论基础Blur image

1.信息论基础概念#

自信息

  自信息(Self-Information)可以理解为时间发生之前我们对事件发生的不确定性的度量。对于一个离散随机变量XX,其取值xix_i的自信息I(xi)I(x_i)定义为:I(xi)=log2P(xi)I(x_i) = -\log_2 P(x_i)
  其中,P(xi)P(x_i)是随机变量XX取值xix_i的概率。自信息越大,表示事件发生的概率越小,即事件越不确定。

信息熵

  信息熵(Entropy)也是用于衡量随机变量的不确定性。对于一个离散随机变量XX,其熵H(X)H(X)定义为: H(X)=iP(xi)log2P(xi)H(X) = -\sum_{i} P(x_i) \log_2 P(x_i)
  熵越大,表示随机变量的不确定性越高。

最大熵原理

  最大熵原理就是指在所有满足已知约束条件的概率分布中,选择熵最大的那个分布。这个原理反映了在缺乏额外信息的情况下,我们应该选择最不确定的分布,最不确定的分布就是均匀分布,均匀分布要比非均匀分布的熵大,概率均匀分布,预测风险最小。

约束条件适用变量的类型最大熵分布
无约束离散变量均匀分布
无约束连续变量均匀分布
已知均值和方差连续变量正态分布
非负取值,给定均值连续变量指数分布
非负整数取值,给定均值离散变量泊松分布

  不要把鸡蛋放在一个笼子里! 感觉高中地理中学的多个原材料厂家就有这个想法,防止某个地方出问题导致原材料断供。好像投资也是这个道理。

KL散度

  KL散度(Kullback-Leibler Divergence)用于衡量两个概率分布之间的差异。对于两个离散概率分布PPQQ,其KL散度DKL(PQ)D_{KL}(P||Q)定义为: DKL(PQ)=iP(xi)log2P(xi)Q(xi)D_{KL}(P||Q) = \sum_{i} P(x_i) \log_2 \frac{P(x_i)}{Q(x_i)}

  根据公式可以看出来,DKL(PQ)=DKL(QP)D_{KL}(P||Q) =D_{KL}(Q||P)并不一定存在,KL散度不是一个对称的度量。然后,KL散度越大,表示两个分布之间的差异越大,当P=QP=Q时,KL散度为0。而且,KL散度总是非负的,即DKL(PQ)0D_{KL}(P||Q) \geq 0,数学证明看了但是不写了,哈哈哈。

交叉熵

  交叉熵(Cross-Entropy)用于衡量两个概率分布之间的差异。对于两个离散概率分布PPQQ,其交叉熵H(P,Q)H(P, Q)定义为: H(P,Q)=iP(xi)log2Q(xi)H(P, Q) = -\sum_{i} P(x_i) \log_2 Q(x_i)

  当概率分布P(x)P(x)确定时,信息熵H(P)H(P)也是确定的,因此交叉熵H(P,Q)H(P, Q)与KL散度DKL(PQ)D_{KL}(P||Q)之间存在以下关系: H(P,Q)=H(P)+DKL(PQ)H(P, Q) = H(P) + D_{KL}(P||Q)

联合熵

  联合熵(Joint Entropy)用于衡量多个随机变量的联合不确定性。对于两个离散随机变量XXYY,其联合熵H(X,Y)H(X, Y)定义为: H(X,Y)=ijP(xi,yj)log2P(xi,yj)H(X, Y) = -\sum_{i} \sum_{j} P(x_i, y_j) \log_2 P(x_i, y_j)   联合熵表示随机变量XXYY的联合不确定性。联合熵满足以下性质:

  1. H(X,Y)H(X)+H(Y)H(X, Y) \leq H(X) + H(Y),等号成立当且仅当XXYY独立。
  2. H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y),其中H(YX)H(Y|X)H(XY)H(X|Y)分别是条件熵。

条件熵

  条件熵(Conditional Entropy)用于衡量在已知另一个随机变量的情况下,随机变量的不确定性。对于两个离散随机变量XXYY,其条件熵H(XY)H(X|Y)定义为:
H(XY)=jP(yj)iP(xiyj)log2P(xiyj)H(X|Y) = -\sum_{j} P(y_j) \sum_{i} P(x_i|y_j) \log_2 P(x_i|y_j)

  条件熵表示在已知随机变量YY的情况下,随机变量XX的不确定性。条件熵越大,表示在已知YY的情况下,XX的不确定性越高。条件熵满足以下性质:

  1. H(XY)=H(X,Y)H(Y)H(X|Y)=H(X,Y)-H(Y),此次的H(X,Y)H(X,Y)是联合熵。
  2. H(XY)H(X)H(X|Y) \leq H(X),等号成立当且仅当XXYY独立。

互信息

  互信息(Mutual Information)用于衡量两个随机变量之间的依赖关系。对于两个离散随机变量XXYY,其互信息I(X;Y)I(X; Y)定义为: I(X;Y)=ijP(xi,yj)log2P(xi,yj)P(xi)P(yj)I(X; Y) = \sum_{i} \sum_{j} P(x_i, y_j) \log_2 \frac{P(x_i, y_j)}{P(x_i) P(y_j)}

  互信息表示随机变量XXYY之间的依赖关系。互信息越大,表示两个随机变量之间的依赖关系越强。当XXYY独立时,互信息为0。互信息满足以下性质:

  1. I(X;Y)=H(X)H(XY)=H(Y)H(YX)I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
  2. I(X;Y)0I(X; Y) \geq 0,等号成立当且仅当XXYY独立。
ML-DL-RL的信息论基础
https://tyuou2.github.io/blog/base-learning-1-math-it/
Author 林夕夕
Published at January 16, 2026
Comment seems to stuck. Try to refresh?✨