Auto-Encoding Variational Bayes (VAE原文)、变分推理

2023年6月3日下午10:23 • 人工智能 • 阅读 91

变分自动编码器的大致概念已经理解了快一年多了，但是其中的数学原理还是没有搞懂，在看到相关的变体时，总会被数学公式卡住。下决心搞懂后，在此记录下我的理解。

公式推导——变分下界

这篇文章提出一种拟合数据集分布的方法，拟合分布最常见的应用就是生成模型。该方法遵循极大似然策略，即对于数据集$X = {x^{(i)}}^N_{i=1}$，对生成模型$p_{\theta}(x)$（注意！这里的$p_{\theta}(x)$既代表生成模型本身，又代表模型生成数据$x$的边缘概率，下面类似）完成如下优化：

\begin{align}\displaystyle \max\limits_{\theta}L = \sum\limits_{i=1}^N\log p_{\theta}(x^{(i)})\end{align}

但是，模型不可能凭空产生数据，必须要有输入才能有输出，所以作者对数据的生成过程进行了假设，假设数据集$X = {x^{(i)}}^N_{i=1}$的生成过程由以下两步组成：

1、通过某个先验分布$p_{\theta^*}(z)$，抽样获得隐变量$z^{(i)}$ 。

2、再通过某个条件分布$p_{\theta^*}(x|z)$，抽样生成$x^{(i)}$。

显然，以上参数$\theta^$的值、个数，甚至是计算推演的过程，都是未知的。为了使优化得以进行，就要对参数的个数和计算流程进行约束，通常专家会根据经验来给予特定数据集特定的计算过程。不失一般性，作者假设先验分布$p_{\theta^}(z)$和似然函数$p_{\theta^*}(x|z)$来自于参数族$p_{\theta}(z)$和$p_{\theta}(x|z)$，并且它们的概率分布函数（PDFs）几乎处处可微。换句话说，作者定义生成模型为$p_{\theta}(z)p_{\theta}(x|z)$。

尽管有如上假设，由于数据$x^{(i)}$与隐变量抽样$z$之间的关系未知，$p_{\theta}(x|z)$还是无法直接进行优化。于是，作者采用一种迂回的方式，让模型自己学会$z$与$x$之间的关系。作者使用自动编码器的机制，与生成模型同时训练一个后验分布模型$q_{\phi}(z|x)$，用来模拟其后验分布$p_{\theta}(z|x)$，称为编码器，并称$p_{\theta}(x|z)$为解码器。概率图如下：

Auto-Encoding Variational Bayes (VAE原文)、变分推理

其中$\theta$表示生成模型$p_{\theta}(z)p_{\theta}(x|z)$的待优化参数，$\phi$表示用于估计$p_{\theta}(z|x)$的模型的参数。

有了$q_\phi(z|x)$作为辅助后，针对每一数据集样本$x$，待优化式可转换如下：

\begin{align} &\log p_{\theta}(x)\ =& \text{E}{q{\phi}(z|x)}\log p_{\theta}(x)\ =& \text{E}{q{\phi}(z|x)}\log \frac{p_{\theta}(x,z)}{p_{\theta}(z|x)}\ =& \text{E}{q{\phi}(z|x)}\left[ \log p_{\theta}(x,z) – \log p_{\theta}(z|x)+\log q_{\phi}(z|x)-\log q_{\phi}(z|x) \right]\ =& \text{E}{q{\phi}(z|x)}\left[ \log \frac{q_{\phi}(z|x)}{ p_{\theta}(z|x)} + \log p_{\theta}(x,z) -\log q_{\phi}(z|x) \right]\ =& \text{KL} \left[ q_{\phi}(z|x) || p_{\theta}(z|x) \right]+ \text{E}{q{\phi}(z|x)}\left[ \log p_{\theta}(x,z) -\log q_{\phi}(z|x) \right] \ =& \text{KL} \left[ q_{\phi}(z|x) || p_{\theta}(z|x) \right]+ \mathcal{L}(\theta,\phi) \ \end{align}

容易看出，由于$(8)$式第一项是相对熵非负，第二项就可看作$(2)$式的下界，称之为变分下界或证据下界（evidence lower bound, ELBO）。获得如下不等式

\begin{align}\log p_{\theta}(x) \ge \mathcal{L}(\theta, \phi)\end{align}

当且仅当$q_{\phi}(z|x) = p_{\theta}(z|x)$时，不等式取等。因为$p_{\theta}(z|x)$未知，第一项KL散度无法计算，又因为它有非负的性质，对优化的影响有限。所以，我们只需对$\mathcal{L}(\theta,\phi)$进行优化，原式自然变大。将$\mathcal{L}(\theta,\phi)$进行变换如下：

\begin{align} \mathcal{L}(\theta,\phi) &= \text{E}{q{\phi}(z|x)}\left[ \log p_{\theta}(x,z) -\log q_{\phi}(z|x) + \log_{\theta}(z) – \log_{\theta}(z) \right] \ &= \text{E}{q{\phi}(z|x)}\left[ -\log q_{\phi}(z|x) + \log_{\theta}(z) + \log p_{\theta}(x,z) – \log_{\theta}(z) \right] \ &= \text{E}{q{\phi}(z|x)}\left[ -\log\frac{q_{\phi}(z|x)}{p_{\theta}(z)} + \log \frac{p_{\theta}(x,z)}{p_{\theta}(z)} \right] \ &= -\text{KL}\left[q_{\phi}(z|x)||p_{\theta}(z)\right]+ \text{E}{q{\phi}(z|x)}\left[ \log p_{\theta}(x|z) \right] \ \end{align}

对于以上两项，我们可以把第一项理解为正则项，也就是说拟合的后验分布应该和生成模型先验分布比较接近才好；第二项理解为重构损失，就是自编码器的损失。同时对这两项进行优化，就可以使生成模型向目标靠近。

最终的目标函数如下：

\begin{align} \frac{1}{N}\sum\limits_{i=1}^N-\text{KL}\left[q_{\phi}(z|x^{(i)})||p_{\theta}(z)\right]+ \text{E}{q{\phi}(z|x^{(i)})}\left[ \log p_{\theta}(x^{(i)}|z) \right] \ \end{align}

换成期望的写法：

\begin{align} \text{E}{x\sim \mathcal{X}}\text{E}{q_{\phi}(z|x)}\left[ -\log q_{\phi}(z|x) + \log p_{\theta}(z)+ \log p_{\theta}(x|z) \right] \end{align}

重参数化

在以上优化式中包含随机采样过程，作者提出使用重参数化来建立可反向传播的采样。实际上就是给模型额外添加一个已知的随机变量作为输入，从而使模型的抽样过程可微。

将作者于文中对以上推导的举例——变分自动编码器（VAE），拿来与$(13)$式做对比，推导的式子以及重参数化的意义就一目了然了。其中VAE的$p_{\theta}(z)$定义为相互独立的多维高斯分布；$q_{\phi}(z|x)$对$z$的采样则是先用模型产生其方差与均值，再使用标准高斯分布的抽样重参数化获得；$p_{\theta}(x|z)$在$z$条件下对$x$的抽样，由于图像数据分布的复杂性，在实践中并没有使用重参数化，也就是解码器直接对$z$进行解码产生$x$。

Original: https://www.cnblogs.com/qizhou/p/14394202.html
Author: 颀周
Title: Auto-Encoding Variational Bayes (VAE原文)、变分推理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565925/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

链家二手房成交数据分析（采用pytorch环境）

一、数据读取、观察、合并 1.1、数据读取 1.1.1、工具包导入 import pandas as pd#工具包导入 import numpy as np#工具包导入 impor…

人工智能 2023年6月11日
0074
（三）朴素贝叶斯与垃圾分类Python代码实现

李航老师《统计学习方法》第二版学习笔记知识点：朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类算法属于生成模型优点：算法逻辑简单，时空开销小缺点：条件独立性的假设…

人工智能 2023年7月3日
0069
redis进阶：哨兵模式工作原理及搭建

引言上一章我们讲解了redis的主从搭建，但要实现真正的可靠的主从结构，还需要实现主从切换。也就是当主节点宕机时，从节点能够自动切换为主节点。这就需要借助哨兵模式来实现，今天我…

人工智能 2023年6月30日
00117
中欧医疗基金数据分析（葛兰）——Python

注：所有产生的数据可在主页资源中”中欧医疗健康混合C相关基金数据”中查看与使用 1 问题背景分析 2022年1月末，年前股票大跌，相应的基金连续跌了近一周的…

人工智能 2023年7月16日
0048
【Power Shell】Invoke-Expression ，Invoke-Expression -Command $activateCommand；错误或power shell激活虚拟环境报错失败

power Shell 一打开就有红字错误： Invoke-Expression : 所在位&#x7F6E…

人工智能 2023年6月23日
00127
基于传统CV实现图片分类（以图搜图）

图片分类在计算机领域并不是一个新鲜的话题了，相对于传统计算机视觉（CV）方法解决这类问题，深度学习的效果反而更好。但是我们依然需要了解传统做法，说不定在未来研究时可以提供不一样的灵…

人工智能 2023年7月1日
0072
Pandas DataFrame.astype()使用实例

astype()方法通常用于将Pandas对象转换为指定的dtype.astype()函数。它还可以将任何合适的现有列转换为分类类型。当我们想将特定的列数据类型转换为另一种数据类…

人工智能 2023年6月2日
0068
torch.optim.SGD参数详解（除nesterov）

【我的理解】虽然叫做”随机梯度下降”，但是本质上还是还是实现的批量梯度下降，即用全部样本梯度的均值更新可学习参数。这里所说的全部样本可以是全部数据集，也可…

人工智能 2023年7月20日
0055
几个图像处理库整理：OpenCV、PIL(pillow)、skimage和GDAL库

主要是图像处理的几个库对数据的读取方式存在差异，有的时候经常搞混，没有概念，所以大致整理一下，一是增强印象，二是整理便于查阅。关于图像读取函数： 1、opencv库，python…

人工智能 2023年7月18日
0061
【机器学习-西瓜书】第5章神经网络

5.1 神经元模型定义：神经网络是由具有适应性的简单单元组成的、广泛并行互连的网络，其组织能够模拟神武神经系统对真实世界物体所做出的交互反应。这里的简单单元指神经元neuron…

人工智能 2023年7月14日
0065
手把手调参最新 YOLOv7 模型训练部分 – 最新版本（二）

手把手调参最新 YOLOv7 模型训练部分 – 最新版本（二）🚀 YOLO系列模型在目标检测领域有着十分重要的地位，随着版本不停的迭代，模型的性能在不断地提升，源码提…

人工智能 2023年7月29日
00191
python程序设计教程(第2版)习题3-习题5代码答案

习题 3 1.从键盘接收整数的一百分制成绩(0～100)，要求输出其对应的成绩等级A～E。其中，90分(包含)以上为A，80～89(均包含)分为B，70～79(均包含)分为C，6…

人工智能 2023年7月5日
00102
R语言ggplot2可视化箱图（boxplot）并使用ggsignif添加分组显著性（significance）标签

R语言ggplot2可视化箱图（boxplot）并使用ggsignif添加分组显著性（significance）标签目录 R语言ggplot2可视化箱图（boxplot）并使用g…

人工智能 2023年7月16日
0053
python矩阵和向量乘法总结

向量之间的乘法 torch.dot 点乘，相同维度的两个向量对应元素相乘再相加 torch.mul 对应元素相乘，结果同a*b例子如下： ; 矩阵与向量的乘法要求：矩阵的列数=向…

人工智能 2023年7月21日
0081
【YOLOV5-5.x源码解读】train.py

这个文件是yolov5的训练脚本。 import argparse import logging import math import os import random impor…

人工智能 2023年7月24日
0045
anaconda下安装TensorFlow

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、anaconda 安装TensorFlow 二、安装步骤出现的问题以及解决 * 1.anaco…

人工智能 2023年5月23日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Auto-Encoding Variational Bayes (VAE原文)、变分推理

公式推导——变分下界

重参数化

大家都在看