论文笔记：Representation Learning with Contrastive Predictive Coding

2023年6月1日下午4:35 • 人工智能 • 阅读 69

对于无监督学习来说，互信息是一个非常重要的指标，它衡量了两个随机变量之间的相关性。在无监督学习中，利用对互信息的优化，通常我们能够得到更加好的特征表示。

要做什么

特征抽取是无监督学习的重要部分，旨在对大量的无标注数据样本进行训练，最后能够得到一个编码器 E，将每一个样本x x x编码为一个好的向量表示z z z，那么如何衡量这个表示是否好呢？自编码器(AutoEncoder)告诉我们, 希望编码出的向量能够重构原始样本。因此我们在加入一个解码器 D, 将重构的x ′ x’x ′与x x x做 Mse loss。

论文笔记：Representation Learning with Contrastive Predictive Coding

但是这样的想法真的好吗？答案是不见得，比如下面的例子：

尽管我们已经见过很多次钞票长什么样子，但我们很少能一模一样的画出钞票；虽然我们画不出栩栩如生的钞票，但我们依旧可以轻易地辨别出钞票。因此钞票在我们大脑中的表示，并不需要我们能够生成完整的钞票，而只需要我们能够进行辨别。基于此，我们可以认为，在人的认知学习中： 一个样本的好的表示应该是能够从大量数据中辨别出该样本，而不是能够直接生成改样本。

; 互信息的优化

那别如何去学习到一个足够辨别该样本的表示呢？没错，就是 最大化互信息。这里先引入一些记号，令X X X表示所有样本集合，x x x表示其中一个样本。Z Z Z表示所有编码向量的集合，z z z表示其中一个编码向量。X X X与Z Z Z的互信息表示为：
I ( X , Z ) = ∑ x ∈ X , z ∈ Z p ( x , z ) l o g p ( x ∣ z ) p ( x ) = H ( X ) − H ( X ∣ Z ) I(X,Z)=\sum_{x \in X, z \in Z}p(x, z) log \frac{p(x|z)}{p(x)}=H(X) – H(X|Z)I (X ,Z )=x ∈X ,z ∈Z ∑p (x ,z )l o g p (x )p (x ∣z )=H (X )−H (X ∣Z )
最大化原始数据X X X和其表示Z Z Z的互信息I ( X , Z ) I(X,Z)I (X ,Z ), 如果X X X是固定的，比如图谱的像素，那么就等价与最小化条件熵H ( X ∣ Z ) H(X | Z)H (X ∣Z ), 也就是说，条件熵越小，也就表示，给定一个表示z z z, 其对应的样本x x x的不确定性越低，也就是说，z z z能够很好地从大量样本X X X中辨别x x x。

对比预测编码(CPC)

本文提出地对比预测编码(CPC)架构如下：

以语音为例，首先通过一个编码器g e n c g_{enc}g e n c 将语音信号x t x_t x t 编码为潜在表示z t z_t z t , 然后通过一个g a r g_{ar}g a r 总结所有z ≤ t z_{\le t}z ≤t 得到c t c_t c t (c t c_t c t 融合了t t t时间前的所有信息), 然后通过一个W k W_k W k 映射为W k c t W_kc_t W k c t , 最终我们希望能够通过W k c t W_kc_t W k c t 识别出x t + k x_{t+k}x t +k 。因为W k W_k W k 是对时间步的映射，被所有C C C共享，因此如果能够从W k c t W_kc_t W k c t 中识别x t + k x_{t+k}x t +k ，那么便说明c t c_t c t 是一个好的表示。得到了每一个x t x_t x t 的编码表示c t c_t c t 后，如果需要得到样本的表示，对他们进行一个pooling就可以了。

结合上文对互信息最大化的讲解，那么CPC的目标就变成了最大化X X X和C C C的互信息I ( X , C ) I(X,C)I (X ,C ):
I ( X , C ) = ∑ x ∈ X , z ∈ C p ( x , c ) l o g p ( x ∣ c ) p ( x ) I(X,C)=\sum_{x \in X, z \in C}p(x, c) log \frac{p(x|c)}{p(x)}I (X ,C )=x ∈X ,z ∈C ∑p (x ,c )l o g p (x )p (x ∣c )
也就是原文中的式(1)。

; 对互信息的估计

文章的初心是希望最大化互信息，但是在实现时，是通过优化 InfoNCE对互信息的下界进行优化，从而间接最大化互信息。

定义 InfoNCE为：

其中X X X是所有可能的采样集合，含有N N N个样本{ x 1 , x 2 , . . . , x N } {x_1, x_2, …, x_N}{x 1 ,x 2 ,…,x N }, 其中含有一个对应c t c_t c t 的正样本x t + k x_{t+k}x t +k 和N − 1 N-1 N −1个负样本。
其中f k ( x t + k , c t ) = e x p ( z t + k T W k c t ) f_k(x_{t+k}, c_t)=exp(z_{t+k}^TW_kc_t)f k (x t +k ,c t )=e x p (z t +k T W k c t )，建模了Density Ratio, 即：f k ( x t + k , c t ) ∝ p ( x t + k ∣ c t ) p ( x t + k ) f_k(x_{t+k}, c_t) \propto \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}f k (x t +k ,c t )∝p (x t +k )p (x t +k ∣c t )。
关于f k ( x t + k , c t ) f_k(x_{t+k}, c_t)f k (x t +k ,c t )为什么要用一个指数簇函数表示，我们待会儿再讲，这里先证明为什么f k ( x t + k , c t ) f_k(x_{t+k}, c_t)f k (x t +k ,c t )建模了Density Ratio。

L N \mathcal{L}N L N 其实就是代表了交叉熵损失，f k ∑ X f k \frac{f_k}{\sum_Xf_k}∑X f k f k 表示模型的输出，它其实就是p ( d = i ∣ X , c t ) p(d=i | X, c_t)p (d =i ∣X ,c t ), 这里[ d = i ] [d = i][d =i ]表示x i x_i x i 是正例，即i = t + k i=t+k i =t +k。而：

因此:f k ( x t + k , c t ) = t p ( x t + k ∣ c t ) p ( x t + k ) ∝ p ( x t + k ∣ c t ) p ( x t + k ) f_k(x{t+k}, c_t) = t \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}\propto \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}f k (x t +k ,c t )=t p (x t +k )p (x t +k ∣c t )∝p (x t +k )p (x t +k ∣c t )。

那为什么f k ( x t + k , c t ) f_k(x_{t+k}, c_t)f k (x t +k ,c t )为什么要用一个指数簇函数表示呢？对t p ( x t + k ∣ c t ) p ( x t + k ) = e x p ( z t + k T W k c t ) t \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}=exp(z_{t+k}^TW_kc_t)t p (x t +k )p (x t +k ∣c t )=e x p (z t +k T W k c t )两边取l o g log l o g, 有: l o g t p ( x t + k ∣ c t ) p ( x t + k ) = z t + k T W k c t logt\frac{p(x_{t+k} | c_t)}{p(x_{t+k})} = z_{t+k}^TW_kc_t l o g t p (x t +k )p (x t +k ∣c t )=z t +k T W k c t , t t t是一个放缩倍数， 因此加入了e x p exp e x p 后，z t + k T W k c t z_{t+k}^TW_kc_t z t +k T W k c t 其实就是拟合的x t + k x_{t+k}x t +k 和c t c_t c t 的点互信息。

到这里，L N \mathcal{L}_N L N 的意义就呼之欲出了：直观来说，对于每一次采样，它就是尽量让正样本对之间的点互信息尽量大。而在所有数据中，大部分的点互信息l o g p ( x ∣ c ) p ( x ) log\frac{p(x|c)}{p(x)}l o g p (x )p (x ∣c )大，可以想象I ( X , C ) I(X,C)I (X ,C )也会大。

文章在附录中也证明了，优化L N \mathcal{L}_N L N , 其实就是在对I ( X , C ) I(X,C)I (X ,C )的下界进行优化：

疑问

1、为什么要通过优化互信息的下界来优化互信息？而不像[1]中一样直接优化互信息本身呢？

2、关于传统的有监督分类中，最后的 logit要接一个 softmax而不接其他的归一化层，是不是最后通过 softmax后，其实就是在最大化点互信息？

参考文献:

[1] 苏剑林. (2018, Oct 02). 《深度学习的互信息：无监督提取特征》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6024

Original: https://blog.csdn.net/Wangpeiyi9979/article/details/109571673
Author: 无聊的人生事无聊
Title: 论文笔记：Representation Learning with Contrastive Predictive Coding

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557721/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

度秘语音引擎app_「资源」9个（实时）语音转文字APP分享（推荐收藏）

” 做会议记录、看无字幕网课再也不用担心，解放双手，提高效率。” 随着语音转文字技术的发展，我们有了更好的方式来记录会议、课堂等。 [En] With th…

人工智能 2023年5月27日
0096
Pytorch模型加密的方法

*加密过程 *解密过程 pip install cryptography from cryptography.fernet import Fernet key = Fernet.g…

人工智能 2023年6月17日
0072
pytorch中collate_fn函数的使用&如何向collate_fn函数传参

这里先从dataset的运行机制讲起. 在dataloader按照batch进行取数据的时候, 是取出大小等同于batch size的index列表; 然后将列表列表中的index…

人工智能 2023年7月22日
0063
Opencv 使用cv2改变视频分辨率和尺寸

用 CV2 改变视频分辨率和尺寸。代码如下：  import cv2 def video(): videoCapture = cv2…

人工智能 2023年7月27日
0056
python处理音频文件的模块——wavio

wavio 模块介绍 wavio是一个实现 wav文件读写的模块，最近正好在研究计算机听觉，需要一个能够轻松读写音频的库或者模块，网上貌似都是scipy的音频模块或者wave，但是…

人工智能 2023年5月27日
0066
pytorch.geomatric 中Planetoid类

pytorch.geomatric 中Planetoid类简介 Planetoid类详解 * 函数原型参数说明示例参考文献简介 Planetoid是 torch_geom…

人工智能 2023年6月16日
00176
pytorch神经网络因素预测_pytorch 神经网络关系拟合 (回归)

要点这次会来见证神经网络是如何通过简单的形式将一群数据用一条线条来表示. 或者说, 是如何在数据当中找到他们的关系, 然后用神经网络模型来建立一个可以代表他们关系的线条. 建立数…

人工智能 2023年6月18日
0085
数字图像处理——双边滤波

双边滤波的实验原理和在python上的具体代码实现图像去噪是用于解决图像由于噪声干扰而导致其质量下降的问题，通过去噪技术可以有效地提高图像质量，增大信噪比，更好的体现原来图像所携…

人工智能 2023年7月6日
0085
【Python】【爬虫】爬取小说5000章，遇到的爬虫问题与解决思路

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月10日
0068
k8s编程operator——client-go基础部分

文章目录 * – 1、client-go简介 – 2、GVK和GVR – 3、client-go中的client – + 3.1 R…

人工智能 2023年6月26日
0080
PCL只获取点云中一个点的法向量之computePointNormal

PCL只获取点云中一个点的法向量computePointNormal 最近用点云图做应用的时候想只获取点云中一个点的法向量，然后就在网络上搜索，搜索了半天只能找到一些看似成功，实则…

人工智能 2023年5月28日
0068
error: (-215:Assertion failed) !_img.empty() in function ‘cv::imwrite‘已解决

项目场景： cv2保存图片报错 error: (-215:Assertion failed) !_img.empty() in function ‘cv::imwrite’ &am…

人工智能 2023年7月27日
00119
基于Python深度图生成3D点云

文章目录前言二维RGB图像成像原理数据准备图片加载算法实现生成点云点云显示完整代码总结前言废话不多说，直接开造。这里的话我们有两个目标，第一个是如何把一个2…

人工智能 2023年7月4日
0063
利用opencv实现图像马赛克处理的三种方法

前言：本文就图像的马赛克处理，基于opencv提出了三种解决方案，并详细地介绍了三种方法的原理、示例、问题及问题的解决方案。方法一原理介绍：利用resize()将图片先缩小，再…

人工智能 2023年7月18日
0056
物联网应用系统设计复习提纲-上

目录 1.掌握Linux常用的基本命令功能、语法结构、用法等。 2.什么是操作系统OS？ 3.现代操作系统类型【五大类】 (1)分时系统 (2)实时操作系统 (3)微机操作系统 (…

人工智能 2023年6月29日
00116
CVPR2022 底层视觉 | 图像处理

图像去雾 Self-Augmented Unpaired Image Dehazing via Density and Depth Decomposition [pdf][code…

人工智能 2023年7月27日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文笔记：Representation Learning with Contrastive Predictive Coding

大家都在看