生成扩散模型漫谈：一般框架之SDE篇

2023年7月28日下午10:05 • 人工智能 • 阅读 67

©PaperWeekly 原创 · 作者 |苏剑林

单位 | 追一科技

研究方向 |NLP、神经网络

在写的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》[1]，可以说该论文构建了一个相当一般化的生成扩散模型理论框架，将 DDPM、SDE、ODE 等诸多结果联系了起来。诚然，这是一篇好论文，但并不是一篇适合初学者的论文，里边直接用到了随机微分方程（SDE）、Fokker-Planck 方程、得分匹配等大量结果，上手难度还是颇大的。

不过，在经过了前四篇文章的积累后，现在我们可以尝试去学习一下这篇论文了。在接下来的文章中，笔者将尝试从尽可能少的理论基础出发，尽量复现原论文中的推导结果。

随机微分

在 DDPM 中，扩散过程被划分为了固定的步，还是用的类比来说，就是”拆楼”和”建楼”都被事先划分为了步，这个划分有着相当大的人为性。事实上，真实的”拆”、”建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。

为此，我们用下述 SDE 描述前向过程（”拆楼”）：

相信很多读者都对 SDE 很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在时的极限：

再直白一点，如果假设拆楼需要天，那么拆楼就是从到的变化过程，每一小步的变化我们可以用上述方程描述。至于时间间隔，我们并没有做特殊限制，只是越小的意味着是对原始 SDE 越好的近似，如果取，那就对应于原来的，如果是则对应于，等等。也就是说，在连续时间的 SDE 视角之下，不同的是 SDE 不同的离散化程度的体现，它们会自动地导致相似的结果，我们不需要事先指定，而是根据实际情况下的精确度来取适当的 T 进行数值计算。

所以，引入 SDE 形式来描述扩散模型的本质好处是”将理论分析和代码实现分离开来”，我们可以借助连续性 SDE 的数学工具对它做分析，而实践的时候，则只需要用任意适当的离散化方案对 SDE 进行数值计算。

对于式（2），读者可能比较有疑惑的是为什么右端第一项是的，而第二项是的？也就是说为什么随机项的阶要比确定项的阶要高？这个还真不是那么容易解释，也是 SDE 比较让人迷惑的地方之一。简单来说，就是一直服从标准正态分布，如果随机项的权重也是，那么由于标准正态分布的均值为、协方差为，临近的随机效应会相互抵消掉，要放大到才能在长期结果中体现出随机效应的作用。

逆向方程

用概率的语言，式（2）意味着条件概率为：

简单起见，这里没有写出无关紧要的归一化因子。按照 DDPM 的思想，我们最终是想要从”拆楼”的过程中学会”建楼”，即得到，为此，我们像一样，用贝叶斯定理：

不难发现，当足够小时，只有当与足够接近时，才会明显不等于 0，反过来也只有这种情况下才会明显不等于 0。因此，我们只需要对与足够接近时的情形做近似分析，为此，我们可以用泰勒展开：

注意不要忽略了项，因为实际上是” 时刻随机变量等于的概率密度”，而实际上是” 时刻随机变量等于的概率密度”，也就是说实际上同时是和的函数，所以要多一项的偏导数。代入到式（4）后，配方得到：

当时，不起作用，因此：

即近似一个均值为、协方差为的正态分布，取的极限，那么对应于 SDE：

这就是反向过程对应的 SDE，最早出现在《Reverse-Time Diffusion Equation Models》[2] 中。这里我们特意在处标注了下标，以突出这是时刻的分布。

得分匹配

现在我们已经得到了逆向的 SDE 为（8），如果进一步知道，那么就可以通过离散化格式：

来逐步完成”建楼”的生成过程【其中】，从而完成一个生成扩散模型的构建。

那么如何得到呢？时刻的就是前面的，它的含义就是时刻的边缘分布。在实际使用时，我们一般会设计能找到解析解的模型，这意味着：

是可以直接求出的，比如当是关于的线性函数时，就可以解析求解。在此前提下，有：

于是：

可以看到最后的式子具有” 的加权平均”的形式，由于假设了有解析解，因此上式实际上是能够直接估算的，然而它涉及到对全体训练样本的平均，一来计算量大，二来泛化能力也不够好。因此，我们希望用神经网络学一个函数，使得它能够直接计算。

很多读者应该对如下结果并不陌生（或者推导一遍也不困难）：

也就是说，要让等于的均值，只需要最小化的均值。同样地，要让等于的加权平均【即】，则只需要最小化的加权平均，即：

分母的只是起到调节 Loss 权重的作用，简单起见我们可以直接去掉它，这不会影响最优解的结果。最后我们再对积分（相当于对于每一个都要最小化上述损失），得到最终的损失函数：

这就是”（条件）得分匹配”的损失函数，之前我们在推导的去噪自编码器的解析解，也是它的一个特例。得分匹配的最早出处可以追溯到 2005 年的论文《Estimation of Non-Normalized Statistical Models by Score Matching》[3]，至于条件得分匹配的最早出处，笔者追溯到的是 2011 年的论文《A Connection Between Score Matching and Denoising Autoencoders》[4]。

不过，虽然该结果跟得分匹配是一样的，但其实在这一节的推导中，我们已经抛开了”得分”的概念了，纯粹是由目标自然地引导出来的答案，笔者认为这样的处理过程更有启发性，希望这一推导能降低大家对得分匹配的理解难度。

结果倒推

至此，我们构建了生成扩散模型的一般流程：

通过随机微分方程（1）定义”拆楼”（前向过程）；
求的表达式；
通过损失函数（15）训练（得分匹配）；
用替换式（8）的，完成”建楼”（反向过程）。

可能大家看到 SDE、微分方程等字眼，天然就觉得”恐慌”，但本质上来说，SDE 只是个”幌子”，实际上将对 SDE 的理解转换到式（2）和式（3）上后，完全就可以抛开 SDE 的概念了，因此概念上其实是没有太大难度的。

不难发现，定义一个随机微分方程（1）是很容易的，但是从（1）求解却是不容易的。原论文的剩余篇幅，主要是对两个有实用性的例子推导和实验。然而，既然求解不容易，那么按照笔者的看法，与其先定义（1）再求解，倒不如像 DDIM [5] 一样，先定义，然后再来反推对应的 SDE？

例如，我们先定义：

并且不失一般性假设起点是，终点是，那么要满足的边界就是：

当然，上述边界条件理论上足够近似就行，也不一定非要精确相等，比如上一篇文章我们分析过 DDPM 相当于选择了，当时结果为。

有了，我们去反推（1），本质上就是要求解，它要满足：

我们考虑线性的解，即：

跟《》一样，我们写出：

由此可得：

令，分别解得：

取时，结果就是论文中的 VE-SDE（Variance Exploding SDE）；而如果取时，结果就是原论文中的 VP-SDE（Variance Preserving SDE）。

至于损失函数，此时我们可以算得：

第二个等号是因为，为了跟以往的结果对齐，我们设，此时式（15）为：

忽略系数后就是 DDPM 的损失函数，而用替换掉式（9）的后，结果与 DDPM 的采样过程具有相同的一阶近似（意味着时两者等价）。

文章小结

本文主要介绍了宋飏博士建立的利用 SDE 理解扩散模型的一般框架，其中包括以尽可能直观的语言推导了反向 SDE、得分匹配等结果，并对方程的求解给出了自己的想法。

参考文献

[1] https://arxiv.org/abs/2011.13456

[2] https://www.sciencedirect.com/science/article/pii/0304414982900515

[3] https://www.jmlr.org/papers/v6/hyvarinen05a.html

[4]https://www.iro.umontreal.ca/~vincentp/Publications/DenoisingScoreMatching_NeuralComp2011.pdf

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读，也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人 原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供 业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在 「知乎」也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」订阅我们的专栏吧

Original: https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126338722
Author: PaperWeekly
Title: 生成扩散模型漫谈：一般框架之SDE篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/721229/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

决策回归树回归算法30

1、决策回归树原理概述与分类树一样裂分指标，使用的是MSE、MAE MSE ( y , y ^ ) = 1 n samples ∑ i = 0 n samples − 1 ( …

人工智能 2023年6月17日
0046
学习笔记_基于pytorch的YOLOv7 – day1阅读论文梳理概念

day1阅读论文重点梳理摘要第一章介绍 * 本文的贡献总结：第二章相关工作 * 2.1 实时物体检测器 2.2.模型重新参数化 2.3.模型缩放第三章网络结构 * 3…

人工智能 2023年7月23日
0084
【K210】K210学习笔记七——使用K210拍摄照片并在MaixHub上进行训练

【K210】K210学习笔记七——使用K210拍摄照片并在MaixHub上进行训练前言 K210准备工作 K210如何拍摄照片 * 准备工作拍摄相关代码定义用K210拍摄到的…

人工智能 2023年6月24日
0097
Li‘s 核磁共振影像数据处理-27-使用FSL进行基于白质骨架的弥散统计分析（Tract-Based Spatial Statistics，TBSS）分析流程

讲解视频内容请移步Bilibili：https://space.bilibili.com/542601735入群讨论请加v hochzeitstorte请注明”核磁共振…

人工智能 2023年7月13日
0085
生成对抗网络GAN论文总结+复现代码(已完成27篇，未完待续。。。)

GAN论文学习心得写在前面 * (GAN)Generative Adversarial Networks (CGAN)Conditional Generative Adversa…

人工智能 2023年7月27日
0090
spss分析方法-聚类分析

聚类分析是根据研究对象的特征，按照一定标准对研究对象进行分类的一种分析方法。下面我们主要从下面四个方面来解说：实际应用理论思想建立模型 *分析结果一、实际应用聚类分析的目…

人工智能 2023年6月15日
00129
halcon中的高斯平滑算子原理分析

文章目录前言一、一维数据滤波原理二、高斯平滑 * 1.计算高斯滤波器权值 2.确定高斯滤波器的尺寸总结前言 halcon中提供了灰度卡尺测量工具，在图像的测量、定位、计数…

人工智能 2023年7月19日
0045
知识图谱遇上推荐系统——RippleNet

主要参考论文：《RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Sys…

人工智能 2023年6月1日
0069
python: 开始使用tensorflow 出现的一些问题即解决办法

python 用了快一年了，想试用一下tensorflow, 了解一下深度学习(deep learning), 但是与其他的模块不同， tensorflow用起来并不容易，或许…

人工智能 2023年6月16日
0072
神经网络最后一层处理

神经网络最后一层处理回归任务分类任务 * 二分类多分类通常，根据目标任务的不同，神经网络的最后一层处理方式也会不同。这篇文章将根据任务类型分别讨论。回归任务如果目标任务…

人工智能 2023年6月16日
0096
数据库原理-完整性

什么是数据库的完整性完整性控制机制 1.完整性约束条件 2.完整性控制 3.SQL Server的完整性总结：数据库的完整性是指数据的正确性和相容性，防止不合语义的数据进入数…

人工智能 2023年6月1日
0092
AI+语音方面总结（一）

开始总结语音相关知识点 1、语音分离和增强的本质是什么？ a) 一个是分类，一个是回归。b) 分类和回归的区别在于输出变量的类型。定量输出称为回归，或者说连续变量预测；定性输出称为…

人工智能 2023年5月25日
0057
NeRF神经辐射场ECCV2020

目录 NeRF前置内容：渲染和观察方向摘要 1.Introduction 2.Related Work * 2.1.Neural 3D shape representations…

人工智能 2023年7月27日
0048
BERT使用过程中添加specialtokens

有时候想要在bert里面加入一些special token, 以huggingFace transformer为例，需要做两个操作：在tokenizer里面加入special t…

人工智能 2023年7月24日
0097
Anaconda下安装tensorflow深度学习框架安装教程

conda 下创建新环境：conda create -n (name )tensorflow(这个是环境名，可任意取) python=3.7.0 进入环境：activate ten…

人工智能 2023年5月25日
0067
【DIoU CIoU】DIoU和CIoU损失函数理解及代码实现

文章目录 1 引言 2 问题分析 3 作者思考 4 DIoU Loss计算过程 5 CIoU Loss计算过程 6 IoU/GIoU/DIoU/CIoU代码实现可视化 7 感谢链接…

人工智能 2023年7月12日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生成扩散模型漫谈：一般框架之SDE篇

大家都在看