机器学习:KL散度详解

KL 散度,是一个用来衡量两个概率分布的相似性的一个度量指标。

我们知道,现实世界里的任何观察都可以看成表示成信息和数据,一般来说,我们无法获取数据的总体,我们只能拿到数据的部分样本,根据数据的部分样本,我们会对数据的整体做一个近似的估计,而数据整体本身有一个真实的分布(我们可能永远无法知道)。

那么近似估计的概率分布和数据整体真实的概率分布的相似度,或者说差异程度,可以用 KL 散度来表示。

KL 散度,最早是从信息论里演化而来的。所以在介绍 KL 散度之前,我们要先介绍一下信息论里有关熵的概念。

信息论中,某个信息

机器学习:KL散度详解 出现的不确定性的大小定义为 机器学习:KL散度详解 所携带的信息量,用 机器学习:KL散度详解 表示。机器学习:KL散度详解与信息 机器学习:KL散度详解 出现的概率 机器学习:KL散度详解 之间的关系为

机器学习:KL散度详解

例:掷两枚骰子,求点数和为7的信息量
点数和为7的情况为:(1,6) ; (6,1) ; (2,5) ; (5,2) ; (3,4) ; (4,3) 这6种。总的情况为 6*6 = 36 种。
那么该信息出现的概率为

机器学习:KL散度详解
包含的信息量为 机器学习:KL散度详解

以上是求单一信息的信息量。但实际情况中,会要求我们求多个信息的信息量,也就是平均信息量。

假设一共有 n 种信息,每种信息出现的概率情况由以下列出:

机器学习:KL散度详解机器学习:KL散度详解机器学习:KL散度详解机器学习:KL散度详解

……

机器学习:KL散度详解机器学习:KL散度详解机器学习:KL散度详解机器学习:KL散度详解机器学习:KL散度详解

……

机器学习:KL散度详解

并且有

机器学习:KL散度详解

机器学习:KL散度详解 , 机器学习:KL散度详解 , …… , 机器学习:KL散度详解 所包含的信息量分别为 机器学习:KL散度详解 , 机器学习:KL散度详解 , …… , 机器学习:KL散度详解。于是,平均信息量为

机器学习:KL散度详解

机器学习:KL散度详解与热力学中的熵的定义类似,故这又被称为信息熵。

例:设有4个信息 A,B,C,D 分别以概率 1/8,1/8,1/4,1/2 传送,每一个信息的出现是相互独立的。则其平均信息量为:

机器学习:KL散度详解

连续信息的平均信息量可定义为

机器学习:KL散度详解

这里的

机器学习:KL散度详解 是信息的概率密度。

上述我们提到了信息论中的 信息熵

机器学习:KL散度详解

这是一个平均信息量,又可以解释为:用基于P的编码去编码来自P的样本,其最优编码平均所需要的比特个数。

接下来我们再提一个概念: 交叉熵

机器学习:KL散度详解

这就解释为:用基于P的编码去编码来自Q的样本,所需要的比特个数。

【注】

机器学习:KL散度详解 为各字符出现的频率,机器学习:KL散度详解 为该字符相应的编码长度,机器学习:KL散度详解 为对应于Q的分布各字符编码长度。

KL散度

有了以上信息论中的相关知识后,我们再回过头来,看一下KL散度。

KL散度又可称为相对熵,描述两个概率分布 P 和 Q 的差异或相似性,用

机器学习:KL散度详解 表示

机器学习:KL散度详解

机器学习:KL散度详解

机器学习:KL散度详解

很显然,散度越小,说明概率 Q 与概率 P 之间越接近,那么估计的概率分布与真实的概率分布也就越接近。

KL散度的性质:

  1. 非对称性:机器学习:KL散度详解
  2. 机器学习:KL散度详解,仅在机器学习:KL散度详解 时等于0

对于性质1的证明,请阅读参考资料第3个。

性质2是很重要的,可以用 _Jensen_不等式证明。

Jensen_不等式与凸函数是密切相关的。可以说 Jensen不等式是凸函数的推广,而凸函数是 Jensen_不等式的特例。

凸函数

那么什么是凸函数?我们有如下定义:

设函数

机器学习:KL散度详解 在区间 机器学习:KL散度详解 上连续,如果对 机器学习:KL散度详解 上任意两点 机器学习:KL散度详解 恒有

机器学习:KL散度详解

则称函数

机器学习:KL散度详解机器学习:KL散度详解 上是(向下)凸的。这里的 机器学习:KL散度详解 是个参数,机器学习:KL散度详解

机器学习:KL散度详解 有:

机器学习:KL散度详解

这便是同济大学的高等数学中的定义。

我想你现在肯定有一个非常大疑问,这是凸函数的定义?你在开玩笑吧?这明明是凹函数好的吧。别急,这就是凸函数的定义。这是国外对于凸函数的定义,外国人认为,只要函数任意两点的割线都位于从这两点截取下来的函数图像的上方,那么这个函数就是凸函数。如果你在学习同济大学的高等数学关于凹凸性这一节时足够细心,你会看到,对于上式的定义,课本里注明了(向上)凹的;没错,课本里说的是向上凹,而国外的则是向下凹的(即向上凸)。所以凹和凸不是绝对的。感兴趣的读者可以查阅相关知识。现在我们用国外的习惯来。

Jensen 不等式

用数学归纳法,将凸函数的概念泛化,就可得到 _Jensen_不等式

对于任意点集

机器学习:KL散度详解,凸函数 机器学习:KL散度详解 满足

机器学习:KL散度详解

这就是 _Jensen_不等式。

不等式的证明,请阅读参考资料第4个。

将其应用到概率论中:离散变量

机器学习:KL散度详解 对应的概率分布为 机器学习:KL散度详解,则有

机器学习:KL散度详解

机器学习:KL散度详解 为期望)

对于连续变量

机器学习:KL散度详解 ,其对应的概率密度为 机器学习:KL散度详解,则有

机器学习:KL散度详解

证明性质2

机器学习:KL散度详解

由于

机器学习:KL散度详解 函数是凹的,需要改变 _Jensen_不等式的符号方向

机器学习:KL散度详解

那么

机器学习:KL散度详解

因此

机器学习:KL散度详解

————————————————

参考资料

KL散度超详细讲解_程旭员的博客-CSDN博客_kl散度计算KL散度定义KL(Kullback-Leibler divergence)散度多应用于概率论或信息论中,又可称相对熵(relative entropy)。它是用来描述两个概率分布P和Q的差异的一种方法。【记】KL具有非对称性,即D(P||Q) ≠ D(Q||P)。在信息论中,D(P||Q) 表示用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布KL散度公…机器学习:KL散度详解https://blog.csdn.net/weixin_37763870/article/details/103026505?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2~default~CTRLIST~Rate-1.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2~default~CTRLIST~Rate-1.pc_relevant_default&utm_relevant_index=1 ; 机器学习:Kullback-Leibler Divergence (KL 散度)_Matrix_11的博客-CSDN博客_kld散度今天,我们介绍机器学习里非常常用的一个概念,KL 散度,这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道,现实世界里的任何观察都可以看成表示成信息和数据,一般来说,我们无法获取数据的总体,我们只能拿到数据的部分样本,根据数据的部分样本,我们会对数据的整体做一个近似的估计,而数据整体本身有一个真实的分布(我们可能永远无法知道),那么近似估计的概率分布和数据整体真实的概率分布的相似度,或者…机器学习:KL散度详解https://blog.csdn.net/matrix_space/article/details/80550561 ; 机器学习中的散度 – 知乎广义的散度指的是一类运算,它将矢量空间上的一个矢量场对应到一个标量场上,通俗的讲,就是输入一组矢量,返回一个标量。 在机器学习中,很多时候我们需要衡量两个概率分布的差异,比如EM算法、GAN,VAE等,那我…机器学习:KL散度详解https://zhuanlan.zhihu.com/p/45131536 ; Jensen不等式初步理解及证明 – 知乎Jensen不等式(Jensen’s inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习、测度论、统计物理等领域都有相关应用。 在机器学习领域,我目前接触到的是用Jensen不等式用来证明KL散度大于等…机器学习:KL散度详解https://zhuanlan.zhihu.com/p/39315786 ;

更多阅读

变分推断(Variational Inference) – 彼岸花杀是条狗 – 博客园变分对于普通的函数f(x),我们可以认为f是一个关于x的一个实数算子,其作用是将实数x映射到实数f(x)。那么类比这种模式,假设存在函数算子F,它是关于f(x)的函数算子,可以将f(x)映射成实数F(机器学习:KL散度详解https://www.cnblogs.com/yifdu25/p/8181185.html ;

Original: https://blog.csdn.net/Poyunji/article/details/123771660
Author: Re:coder
Title: 机器学习:KL散度详解

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/721364/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球