【课程笔记】中科大信息论(三)

[\begin{aligned} H(X, Y) &=\mathrm{E}\left[\log \frac{1}{p(X, Y)}\right] \ &=\mathrm{E}\left[\log \frac{1}{p(X) p(Y \mid X)}\right] \ &=\mathrm{E}\left[\log \frac{1}{p(X)}+\log \frac{1}{p(Y \mid X)}\right] \ &=\mathrm{E}\left[\log \frac{1}{p(X)}\right]+\mathrm{E}\left[\log \frac{1}{p(Y \mid X)}\right] \ &=H(X)+H(Y \mid X) \end{aligned} ]

  • 如果把求熵的负号写在外面,容易出错
  • 理解三个变量的链式法则(p(x,y\mid z)=p(x\mid z)p(y\mid x,z)) 两边同乘(p(z)) ,将(x,z) 看成一个整体,就变成了二元的链式法则 [p(y,x,z)=p(x,z)p(y|x,z) ]
  • 取期望的时候一定要小心
  • (\mathrm{E}_{X,Y}\left[\log \frac{1}{p(X)}\right]=H(X))的计算方法
    1. 跳步骤的做法: 因为内部只有(X) ,所以期望下标不用写(Y) [\mathrm{E}{X,Y}\left[\log \frac{1}{p(X)}\right]=\mathrm{E}{X}\left[\log \frac{1}{p(X)}\right]=H(X) ]
    2. 不跳步骤的做法: 将连加符号拆开,(\sum_{x,y,z} = \sum_{x} \sum_{y}\sum_{z}) [\begin{aligned} \mathrm{E}{X,Y}\left[\log \frac{1}{p(X)}\right] &= \sum{x,y}p(x,y)\log \frac{1}{p(X)} \ &=\sum_{x}\left[\sum_{y}p(x,y)\right]\log \frac{1}{p(X)}\ &=\sum_{x}p(x)\log \frac{1}{p(X)}\ &= H(X) \end{aligned} ]
  • (\mathrm{E}\left[\log \frac{1}{p(Y \mid X)}\right])的计算注意,期望是同时对(X,Y)取的,不是(P(Y|X=x))。不忘初心!

[H\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \ldots, X_{1}\right) ]

【课程笔记】中科大信息论(三)
* 当计算条件概率(条件熵)更简单时,相较于遍历不同取值的概率,可以降低工作量
  • 依然使用 做差+IT不等式证明
  • 做差的方向:由于IT不等式是(\ln r\le r-1),为了处理熵中的(\log)项,需要 将对数放在左边,因此要做差找到 (A-B\le 0) 的形式
  • IT不等式可以 去除对数运算,便于计算期望
  • 条件分布经常算不动,所以要乘回联合分布 [\frac{p(Y)}{p(Y\mid X)}=\frac{p(Y)p(X)}{p(Y\mid X)p(X)}=\frac{p(X)p(Y)}{p(X,Y)} ]
  • 从不确定度的角度理解条件熵:增加条件后,不确定度只可能减少,因此条件熵≤无条件熵
  • 变量间的关系(条件概率)比单独某个事件更值得研究

  • (H(Y \mid X, Z) \leq H(Y \mid Z))

  • 依然是做差+IT不等式,不过需要 条件概率的拆分 [\begin{aligned} \mathrm{E}{X,Y,Z}\left[\frac{p(Y\mid Z)p(X\mid Z)}{p(X,Y\mid Z)}\right] &= \sum{x,y,z}p(x,y,z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)} \ &=\sum_{x,y,z}p(z)p(x,y\mid z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)}\ &=\sum_{x,y,z}p(z)p(x,y\mid z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)}\ &= \sum_{z}p(z)\sum_{y}\sum_{x}p(x\mid z)p(y\mid z)\ &= 1 \end{aligned} ] 条件概率求和时
    • (\sum_{y}p(y\mid z)=1)
    • (\sum_{z,y}p(y\mid z)=\mid\mathcal{Z}\mid)
  • 条件独立和独立一般不能互推,而独立的条件一般比较强
  • (H\left(X_{1}, X_{2}, \ldots, X_{n}\right) \leq H\left(X_{1}\right)+H\left(X_{2}\right)+\ldots+H\left(X_{n}\right)) 在 相互独立时取等:(X_1)与(X_2)独立,(X_3)与(X_1,X_2)独立,则(p(X_1X_2X_3)=p(X_1X_2)p(X_3)=p(X_1)p(X_2)p(X_3))
  • 当变量间的关系是函数关系
  • (H(Y\mid X) = 0) holds if there is a mapping (f) such that (Y = f (X)) (p(y\mid x)=0~ \text{or}~1),所以有(H(f (X)\mid X) = 0) 充分非必要条件
  • (H(f (X)) \le H(X)) holds in general, and equality holds iff $ f$ is a bijection. 两种证明方法
    • 用定义,核心在于离散的映射关系,值域不会比定义域大 当是双射的时候,一一对应,因此熵等; 当不是双射的时候,存在 概率的合并,以二元输入(p_i,p_j)合并成((p_i+p_j))为例,有 [\begin{aligned} h(p_i,p_j) &= -p_i\log(p_i)-pj\log(p_j) \ &> -p_i\log(p_i+p_j)-p_j\log(p_i+p_j) \ &= -(p_i+p_j)\log(p_i+p_j) \ &= h(p_i+p_j) \end{aligned} ] 由于概率合并过后, 对数更大,取负后熵更小
    • 从两个方向用链式法则展开 [\begin{aligned} H(X,f(X)) &= H(X)+H(f(X)\mid X) \ &=H(f(X))+H(X\mid f(X)) \end{aligned} ] 因此第二个等号两边可以看作 天平。 其中(H(f(X)\mid X)=0,H(X\mid f(X))\ge 0),所以(H(X))更大;同时当且仅当(H(X\mid f(X))= 0)时取等,也就是双射

Original: https://www.cnblogs.com/mhlan/p/15968012.html
Author: 木坑
Title: 【课程笔记】中科大信息论(三)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/806581/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球