KL散度（距离）和JS散度（距离）zz

2023年5月31日下午4:17 • 技术杂谈 • 阅读 98

两者都可以用来衡量两个概率分布之间的差异性。JS散度是KL散度的一种变体形式。

KL散度：
也称相对熵、KL距离。对于两个概率分布P和Q之间的差异性（也可以简单理解成相似性），二者越相似，KL散度越小。

KL散度的性质：
●非负性。即KL散度大于等于零。

●非对称性。即运算时交换P和Q的位置，得到的结果也不一样。（所以这里严格来讲也不能把KL散度称为KL距离，距离一定符合对称性，所以要描述准确的话还是建议用KL散度来表述）

离散分布公式：

连续分布公式：

python代码实现：

KL_divergence

import numpy as np
import scipy.stats
P=np.array([1/4,1/2,1/4,1/4])
Q=np.array([1/3,1/3,1/6,1/6])
def KL_divergence(P,Q):
return scipy.stats.entropy(P,Q)
print(KL_divergence(P,Q)) # 0.04369212068196553
print(KL_divergence(P,Q)) # 0.04369212068196553
JS散度：
JS散度是KL散度的一种变体，与KL散度相似，P和Q越相似，JS散度越小。

JS散度的性质：
●JS散度的值域范围是[0,1]，完全相同为0，完全相反为1。相较于KL，对相似度的判别更确切了。

●对称性。通过公式可以看出交换了P和Q的位置计算结果仍然一样。（个人认为这种JS散度的出现就是为了解决KL散度不对称的问题）

python代码实现：

JS_divergence

import numpy as np
import scipy.stats
P=np.array([1/4,1/2,1/4,1/4])
Q=np.array([1/3,1/3,1/6,1/6])
R=np.array([1/10,3/10,4/10,2/10])
def JS_divergence(P,Q):
M=(P+Q)/2
return 0.5scipy.stats.entropy(P, M)+0.5scipy.stats.entropy(Q, M)
print(JS_divergence(P,Q)) # 0.011598863066818382
print(JS_divergence(Q,P)) # 0.011598863066818382

————————————————

在看论文《Detecting Regions of Maximal Divergence for Spatio-Temporal Anomaly Detection》时，文中提到了这三种方法来比较时间序列中不同区域概率分布的差异。

KL散度、JS散度和交叉熵

三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。

对于概率分布P(x)和Q(x)

1）KL散度（Kullback–Leibler divergence）

又称KL距离，相对熵。

当P(x)和Q(x)的相似度越高，KL散度越小。

KL散度主要有两个性质：

（1）不对称性

尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即D(P||Q)!=D(Q||P)。

（2）非负性

相对熵的值是非负值，即D(P||Q)>0。

2）JS散度（Jensen-Shannon divergence）

JS散度也称JS距离，是KL散度的一种变形。

但是不同于KL主要又两方面：

（1）值域范围

JS散度的值域范围是[0,1]，相同则是0，相反为1。相较于KL，对相似度的判别更确切了。

（2）对称性

即 JS(P||Q)=JS(Q||P)，从数学表达式中就可以看出。

3）交叉熵（Cross Entropy）

在神经网络中，交叉熵可以作为损失函数，因为它可以衡量P和Q的相似性。

交叉熵和相对熵的关系：

以上都是基于离散分布的概率，如果是连续的数据，则需要对数据进行Probability Density Estimate来确定数据的概率分布，就不是求和而是通过求积分的形式进行计算了。

补充：信息熵、交叉熵与KL散度

信息量

在信息论与编码中，信息量，也叫自信息（self-information），是指一个事件所能够带来信息的多少。一般地，这个事件发生的概率越小，其带来的信息量越大。

从编码的角度来看，这个事件发生的概率越大，其编码长度越小，这个事件发生的概率越小，其编码长度就越大。但是编码长度小也是代价的，比如字母’a’用数字’0’来表示时，为了避免歧义，就不能有其他任何以’0’开头的编码了。

因此，信息量定义如下：

信息熵

信息熵是指一个概率分布p的平均信息量，代表着随机变量或系统的不确定性，熵越大，随机变量或系统的不确定性就越大。从编码的角度来看，信息熵是表示一个概率分布p需要的平均编码长度，其可表示为：

交叉熵

交叉熵是指在给定真实分布q情况下，采用一个猜测的分布p对其进行编码的平均编码长度（或用猜测的分布来编码真实分布得到的信息量）。

交叉熵可以用来衡量真实数据分布于当前分布的相似性，当前分布与真实分布相等时（q=p），交叉熵达到最小值。

其可定义为：

因此，在很多机器学习算法中都使用交叉熵作为损失函数，交叉熵越小，当前分布与真实分布越接近。此外，相比于均方误差，交叉熵具有以下两个优点：

在LR中，如果用均方误差损失函数，它是一个非凸函数，而使用交叉熵损失函数，它是一个凸函数；

在LR中使用sigmoid激活函数，如果使用均方误差损失函数，在对其求残差时，其表达式与激活函数的导数有关，而sigmoid（如下图所示）的导数在输入值超出[-5,5]范围后将非常小，这会带来梯度消失问题，而使用交叉熵损失函数则能避免这个问题。

KL散度

KL散度又称 相对熵，是衡量两个分布之间的差异性。从编码的角度来看，KL散度可表示为采用猜测分布p得到的平均编码长度与采用真实分布q得到的平均编码长度多出的bit数，其数学表达式可定义为：

一般地，两个分布越接近，其KL散度越小，最小为0.它具有两个特性：

非负性，即KL散度最小值为0，其详细证明可见[1] ;

非对称性，即Dq(p)不等于Dp(q) ; KL散度与交叉熵之间的关系

在这里，再次盗用[1]的图来形象地表达这两者之间的关系：

最上方cH(p)为信息熵，表示分布p的平均编码长度/信息量；

中间的Hq(p)表示用分布q表编码分布p所含的信息量或编码长度，简称为交叉熵，其中Hq(p)>=H(p)

;最小方的Dq(p)表示的是q对p的KL距离，衡量了分布q和分布p之间的差异性，其中Dq(p)>=0;

从上图可知，Hq(p) = H(p) + Dq(p)。

Original: https://www.cnblogs.com/end/p/16373502.html
Author: 风生水起
Title: KL散度（距离）和JS散度（距离）zz

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/551714/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

面试中关于字符串及常量池的一些考点

字符串及常量池在面试中很容易被问到，前2天在为公司做校招面试时，发现很多同学对相关细节不太清楚，在此梳理一下：先回顾一下java中字符串的设计，大家都知道jvm中有所谓的&#82…

技术杂谈 2023年5月31日
0085
设置描述性弹性域某个字段为只读

设置一个值集，假设值集名为CUX_ONLYREAD 验证类型设置为特定点击编辑信息上部分事件选择编辑，函数为 FND SQL “BEGIN NULL;END;&#8…

技术杂谈 2023年6月1日
0075
Python3.11正式版，它来了！

转载请注明出处❤️ 作者：测试蔡坨坨原文链接：caituotuo.top/b055fbf2.html 你好，我是测试蔡坨坨。就在前几天，2022年10月24日，Python3….

技术杂谈 2023年7月11日
00115
集合remove()方法相关问题

学习集合的过程中，了解到一个有关于remove()方法的有关特性，特此记录首先remove方法的格式： collection.remove(Object o); 这是指对集合co…

技术杂谈 2023年7月25日
0080
分布式ID生成方案

分布式ID策略为什么要用分布式ID？在我们业务数据量不大的时候，单库单表完全可以支撑现有业务，数据再大一点搞个 MySQL 主从同步读写分离也能对付。但随着数据日渐增长，主从…

技术杂谈 2023年6月21日
00104
阿里开源COLA 4.0源码编译和部署过程

COLA 是 Clean Object-Oriented and Layered Architecture的缩写，代表”整洁面向对象分层架构”。目前COL…

技术杂谈 2023年6月1日
00109
项目一共30个模块，你叫我maven版本一个个手动改？

大家好呀，我是铂赛东，一个乱入公众号博主的开源作者。今天分享一个maven小技巧，希望帮助到大家。之前有个群友私聊问我，如何快速统一去更改项目中所有的maven版本号，他说之前都…

技术杂谈 2023年7月11日
0072
crash命令 —— sym

参考：https://crash-utility.github.io/help_pages/sym.html 用法：查看系统中所有的全局符号及其地址 sym -l 对于percp…

技术杂谈 2023年5月30日
0097
简单易懂讲文件

注意事项如果运行代码的时候找不到文件，但是文件的的确确又存在，检查下 idea 的工作路径路径 Path Path 对象是将一个路径封装成一个对象，然后通过这个对象来执行路径的…

技术杂谈 2023年7月25日
0081
Github上把敏感文件或者API秘钥上传公共库并开放为public权限导致秘钥泄露

Github上把敏感文件或者API秘钥上传公共库并开放为public权限导致秘钥泄露背景我们在开发项目时，可能会使用到一些加密文件，例如私钥，或者使用到一些云服务商提供的ak(…

技术杂谈 2023年6月21日
0092
高性能RPC框架gRPC竟恐怖如斯~

大家好，我是不才陈某~ RPC、gRPC、Thrift、HTTP，大家知道它们之间的联系和区别么？这些都是面试常考的问题，今天带大家先搞懂 RPC 和 gRPC。在讲述 gRPC…

技术杂谈 2023年7月23日
0079
win7系统右击任务栏资源管理器弹出菜单“已固定”和“最近”项目不显示故障处理

故障描述：右击任务栏中资源管理器图标时，弹出菜单只有”资源管理器”和”解除锁定”两个项目，”已固定”和&#8…

技术杂谈 2023年7月24日
00128
Kubernetes 基础概念整理

K8S基础组件整个集群的控制中枢集群控制中枢，各个模块之间的信息交互都需要经过Kube-APIServer,同时也是集群管理，资源配置，集群安全机制的入口集群的状态管理器，保…

技术杂谈 2023年7月11日
0066
Vue系列—理解Vue.nextTick使用及源码分析(五)

一. 什么是Vue.nextTick()? 2.1 更改数据后，进行节点DOM操作。比如修改数据、修改节点样式、等操作。比如说我修改data中的一个属性数据后，如果我这个时候直接…

技术杂谈 2023年6月1日
0092
【证券从业】金融基础知识-第三章证券市场主体01

注1：后续学习并整理到第八章，全书完结后再合并成一个笔记进行源文件分享注2：本章内容巨多，大约分为三篇文章记录消化 posted @2022-06-01 22:20 陈景中阅读…

技术杂谈 2023年7月10日
0082
基于netty实现的长连接，心跳机制及重连机制

详细本篇demo实现的功能是基于netty的心跳机制和长连接以及重连机制，最关键的就是通过netty中的 IdleStateHandler 的超时机制来实现心跳和重连，然后通过…

技术杂谈 2023年5月31日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31