Diffusion model—扩散模型

2023年6月12日下午9:24 • 人工智能 • 阅读 70

文章目录

摘要
一、简介
二、扩散过程
*
2.1 定义扩散过程
2.2 重参数技巧得到迭代公式
2.3 得到全局扩散公式
2.4 扩散过程实现代码
–
- 2.4.1 总结扩散公式
- 2.4.2 代码
三、逆扩散过程
*
3.1 目标公式
3.2 后验条件概率
四、优化目标
*
4.1 损失函数公式推导
4.2 损失函数代码实现
五、算法流程
*
5.1 模型训练代码
5.2 模型采样代码
5.3 训练好的模型效果

摘要

The diffusion model is a generative model of the Encoder-Decoder architecture, which is divided into a diffusion stage and an inverse diffusion stage. In the diffusion stage, by continuously adding noise to the original data, the data is changed from the original distribution to the distribution we expect, for example, the original data distribution is changed to a normal distribution by continuously adding Gaussian noise. During the inverse diffusion stage, a neural network is used to restore the data from a normal distribution to the original data distribution. Its advantage is that each point on the normal distribution is a mapping of the real data, and the model has better interpretability. The disadvantage is that iterative sampling is slow, resulting in low model training and prediction efficiency.

扩散模型是Encoder-Decoder架构的生成模型，分为扩散阶段和逆扩散阶段。在扩散阶段，通过不断对原始数据添加噪声，使数据从原始分布变为我们期望的分布，例如通过不断添加高斯噪声将原始数据分布变为正态分布。在逆扩散阶段，使用神经网络将数据从正态分布恢复到原始数据分布。它的优点是正态分布上的每个点都是真实数据的映射，模型具有更好的可解释性。缺点是迭代采样速度慢，导致模型训练和预测效率低。

参考资料

一、简介

Diffusion model模型分为扩散过程和逆扩散过程，扩散过程通过对原始数据不断加入高斯噪音，使原始数据变为高斯分布的数据，即从X 0 X_0 X 0 − > ->−> X T X_T X T 。逆扩散过程通过高斯噪声还原出图片，即从X T X_T X T − > ->−> X 0 X_0 X 0 。

; 二、扩散过程

2.1 定义扩散过程

在设定扩散过程是一个马尔可夫链的条件下，向原始信息中不断添加高斯噪声，每一步添加高斯噪声的过程是从X t − 1 − > X t X_{t-1} -> X_t X t −1 −>X t ，于是定义公式：
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_t|x_{t-1}) = N(x_t;\sqrt{1-\beta_t}x_{t-1} ,\beta_tI)q (x t ∣x t −1 )=N (x t ;1 −βt x t −1 ,βt I )

该公式表示从x t − 1 − > x t x_{t-1}->x_t x t −1 −>x t 是一个以1 − β t x t − 1 \sqrt{1-\beta_t}x_{t-1}1 −βt x t −1 为均值β t \beta_t βt 为方差的高斯分布变换。

2.2 重参数技巧得到迭代公式

利用重参数技巧得到每一次添加高斯噪声的公式如下：
X t = 1 − β t X t − 1 + β t Z t X_t = \sqrt{1-\beta_t}X_{t-1} + \sqrt{\beta}_tZ_t X t =1 −βt X t −1 +βt Z t

X t X_t X t 表示 t 时刻的数据分布
Z t Z_t Z t 表示 t 时刻添加的高斯噪音，一般固定是均值为0方差为1的高斯分布
1 − β t X t − 1 \sqrt{1-\beta_t}X_{t-1}1 −βt X t −1 表示当前时刻分布的均值
β t \sqrt{\beta}_t βt 表示当前时刻分布的标准差(标准差=方差 \sqrt{方差}方差)

注意：其中β t \beta_t βt 是预先设定0~1之间的常量，故扩散过程不含参。

2.3 得到全局扩散公式

在 2.2的迭代公式中可知，扩散过程中只有一个参数β \beta β，而β \beta β是预先设置的常量，故扩散过程中无未知的需要学习的参数，所以只需要知道初始数据分布X 0 X_0 X 0 和β t \beta_t βt 就可以得到任意时刻的分布X t X_t X t ，具体公式如下：

X 0 X_0 X 0 为原始数据的分布
α t = 1 − β t \alpha_t = 1 – \beta_t αt =1 −βt
α t ˉ = ∏ i = 1 t α i \bar{\alpha_t} = \prod_{i=1}^{t}\alpha_i αt ˉ=∏i =1 t αi
Z为均值为0方差为1的高斯分布

; 2.4 扩散过程实现代码

2.4.1 总结扩散公式

由 2.3可知扩散过程公式为：
X t = α t ˉ X 0 + 1 − α ˉ Z X_t = \sqrt{\bar{\alpha_t}}X_0 + \sqrt{1 – \bar{\alpha}}Z X t =αt ˉX 0 +1 −αˉZ其中：

X 0 X_0 X 0 为原始数据的分布
α t = 1 − β t \alpha_t = 1 – \beta_t αt =1 −βt
α t ˉ = ∏ i = 1 t α i \bar{\alpha_t} = \prod_{i=1}^{t}\alpha_i αt ˉ=∏i =1 t αi
Z为均值为0方差为1的高斯分布

2.4.2 代码

用make_s_curve生成数据为例得到X 0 X_0 X 0


s_curve, _ = make_s_curve(10**4, noise=0.1)
x_0 = s_curve[:, [0, 2]]/10.0

print(np.shape(x_0))

data = x_0.T
fig, ax = plt.subplots()
ax.scatter(*data, color='red', edgecolor='white')
ax.axis('off')
dataset = torch.Tensor(data)

2. 假定有100个时刻设置，所有时刻的β \beta β

num_steps = 100
betas = torch.linspace(-6, 6, num_steps)
betas = torch.sigmoid(betas)*(0.5e-2 - 1e-5)+1e-5

β \beta β为0-1之前很小的数，最大值为0.5e-2，最小值为1e-5
3. 得到α \alpha α（α = 1 − β \alpha = 1 – \beta α=1 −β）

alphas = 1 - betas

得到各个时刻的α t ˉ \bar{\alpha_t}αt ˉ（α t ˉ = ∏ i = 1 t α i \bar{\alpha_t} = \prod_{i=1}^{t}\alpha_i αt ˉ=∏i =1 t αi ）

alphas_prod = torch.cumprod(alphas, 0)

得到α t \sqrt{\alpha_t}αt

alphas_bar_sqrt = torch.sqrt(alphas_bar)

得到1 − α t ˉ \sqrt{1-\bar{\alpha_t}}1 −αt ˉ

one_minus_alphas_bar_sqrt = torch.sqrt(1-alphas_bar)

输入X 0 X_0 X 0 与时刻t，得到X t X_t X t ，即X t = α t ˉ X 0 + 1 − α t ˉ Z X_t = \sqrt{\bar{\alpha_t}}X_0 + \sqrt{1 – \bar{\alpha_t}}Z X t =αt ˉX 0 +1 −αt ˉZ

def x_t(x_0, t):
    noise = torch.randn_like(x_0)
    return (alphas_bar_sqrt[t]*x_0 + one_minus_alphas_bar_sqrt[t]*noise)

扩散过程演示

num_shows = 20
fig, axs = plt.subplots(2, 10, figsize=(28, 3))
plt.rc('text', color='blue')

for i in range(num_shows):
    j = i//10
    k = i%10
    num_x_t = x_t(dataset, torch.tensor([i*num_steps//num_shows]))
    axs[j, k].scatter(*num_x_t, color='red', edgecolor='white')
    axs[j, k].set_axis_off()
    axs[j, k].set_title('$q(\mathbf{x}_{'+str(i*num_steps//num_shows)+'})$')

三、逆扩散过程

3.1 目标公式

扩散过程是将原始数据不断加噪得到高斯噪声，逆扩散过程是从高斯噪声中恢复原始数据，我们假定逆扩散过程仍然是一个马尔可夫链的过程，要做的是X T − > X 0 X_T->X_0 X T −>X 0 ，用公式表达如下：
p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; u θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(x_{t-1}|x_t) = N(x_{t-1}; u_\theta(x_t, t),\Sigma_\theta(x_t, t) )p θ(x t −1 ∣x t )=N (x t −1 ;u θ(x t ,t ),Σθ(x t ,t ))

3.2 后验条件概率

推导得到后验条件概率q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t, x_0)q (x t −1 ∣x t ,x 0 )

其方差β t ˉ \bar{\beta_t}βt ˉ为：
β t ˉ = 1 − α t − 1 ˉ 1 − α t ˉ β t \bar{\beta_t} = \frac{1-\bar{\alpha_{t-1}}}{1-\bar{\alpha_t}}\beta_t βt ˉ=1 −αt ˉ1 −αt −1 ˉβt
均值u ˉ ( x t − 1 , x 0 ) \bar{u}(x_{t-1}, x_0)u ˉ(x t −1 ,x 0 )为：
u ˉ ( x t − 1 , x 0 ) = α t ( 1 − α ˉ t − 1 ) 1 − α t ˉ x t + α ˉ t − 1 β t 1 − α t ˉ x 0 \bar{u}(x_{t-1}, x_0)=\frac{\sqrt{\alpha_t}(1-\bar{\alpha}{t-1})}{1-\bar{\alpha_t}}x_t+\frac{\sqrt{\bar{\alpha}{t-1}}\beta_t}{1-\bar{\alpha_t}}x_0 u ˉ(x t −1 ,x 0 )=1 −αt ˉαt (1 −αˉt −1 )x t +1 −αt ˉαˉt −1 βt x 0
逆扩散过程模型不应当事先知道x 0 x_0 x 0 ，故需将x 0 x_0 x 0 用x t x_t x t 代替，根据 2.4得到：
Diffusion model—扩散模型

代入均值公式中，化简后得到后验条件均值：
u ˉ t = 1 α t ( x t − β t 1 − α t ˉ z t ) \bar{u}_t=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha_t}}}z_t)u ˉt =αt 1 (x t −1 −αt ˉβt z t )

; 四、优化目标

4.1 损失函数公式推导

得到损失函数如下：

; 4.2 损失函数代码实现

def diffusion_loss_fn(model, x_0, alphas_bar_sqrt, one_minus_alphas_bar_sqrt, n_steps):
    batch_size = x_0.shape[0]

    t = torch.randint(0, n_steps, size=(batch_size//2,))

    t = torch.cat([t, num_steps-1-t], dim=0)
    t = t.unsqueeze(-1)

    a = alphas_bar_sqrt[t].to(device)

    aml = one_minus_alphas_bar_sqrt[t].to(device)

    e = torch.randn_like(x_0).to(device)

    x = x_0 * a + e * aml

    output = model(x, t.squeeze(-1).to(device))

    return (e - output).square().mean()

五、算法流程

; 5.1 模型训练代码

print('训练模型...')

batch_size = 128
dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=True)
num_epoch = 4000
plt.rc('text', color='blue')

model = MLPDiffusion(num_steps)
model = model.to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

for t in range(num_epoch):
    for idx, batch_x in enumerate(dataloader):
        batch_x = batch_x.to(device)
        loss = diffusion_loss_fn(model,batch_x,alphas_bar_sqrt,one_minus_alphas_bar_sqrt,num_steps)
        optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.)
        optimizer.step()

    if(t%100==0):
        print(loss)
torch.save(model, "model.h5")

5.2 模型采样代码

def p_sample_loop(model, shape, n_steps, betas, one_minus_alphas_bar_sqrt):
    cur_x = torch.randn(shape).to(device)
    x_seq = [cur_x]
    for i in reversed(range(n_steps)):
        cur_x = p_sample(model, cur_x, i, betas.to(device), one_minus_alphas_bar_sqrt.to(device))
        x_seq.append(cur_x)
    return x_seq

def p_sample(model, x, t, betas, one_minus_alphas_bar_sqrt):
    t = torch.tensor([t]).to(device)
    coeff = betas[t]/one_minus_alphas_bar_sqrt[t]
    eps_theta = model(x, t)

    mean = (1 / (1-betas[t]).sqrt())*(x - (coeff*eps_theta))
    z = torch.randn_like(x).to(device)

    sigma_t = betas[t].sqrt().to(device)
    sample = mean + sigma_t * z
    return (sample)

model = torch.load("model.h5")
x_seq = p_sample_loop(model, dataset.shape, num_steps, betas, one_minus_alphas_bar_sqrt)
fig, axs = plt.subplots(1, 10, figsize=(28, 3))
for i in range(1, 11):
    cur_x = x_seq[i*10].detach()
    axs[i-1].scatter(cur_x[:, 0].cpu(), cur_x[:, 1].cpu(), color='red', edgecolor='white');
    axs[i-1].set_axis_off();
    axs[i-1].set_title('$q(\mathbf{x}_{'+str(i*10)+'})$')

5.3 训练好的模型效果

Original: https://blog.csdn.net/sunningzhzh/article/details/125118688
Author: 原来如此-
Title: Diffusion model—扩散模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605403/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NLP自然语言处理学习笔记（十二）（转自咕泡AI）

问答机器人排序模型目标知道模型中排序中的概念和目的知道模型中排序的实现方法 1. 排序模型的介绍前面的课程中为了完成一个问答机器人，我们先进行了召回，相当于是通过海选的方法…

人工智能 2023年6月27日
0063
多种方法（聚类、衍生变量、多重筛选、损失函数）解决解决异常值识别效果不佳问题（含2022年全国服务外包大赛实例）

我们以2022年全国服务外包大赛的A03题目作为示例。问题的主要任务时找出商品的销量异常和价格异常，提供4个月的商品信息数据，共1700万余条，4个月的店铺信息数据，共60万余条，…

人工智能 2023年7月16日
0067
python–敲击木鱼积累功德小项目

import pygame pygame.mixer.init() screen=pygame.display.set_mode((700,500)) pygame.display…

人工智能 2023年7月3日
00123
python筛选一段数据_按多个关键字筛选数据

我认为您可以为每个关键字创建单独的掩码，然后通过&将它们与链接结合起来—对于每行至少一个True使用^{}：df_rest = pd.DataFrame({0:[&#821…

人工智能 2023年7月7日
0058
已解决ModuleNotFoundError: No module named ‘PIL‘

已解决ModuleNotFoundError: No module named ‘PIL’ 文章目录报错代码报错翻译报错原因解决方法千人全栈VIP…

人工智能 2023年6月18日
0087
Python足够开一家语音识别公司的中文语音识别系统源码方案

人工智能 2023年5月23日
0064
第二章关系数据库

2.1关系关系模型由关系数据结构、关系操作和关系完整性三部分组成 2.1.1关系的定义 1.关系数据库系统：以关系数据模型为基础的数据库系统只包含单一的数据结构-关系，即实体以…

人工智能 2023年6月1日
0094
目标检测：YOLOV3

发表于CVPR2018。YOLOV3本身没有太多的创新点，主要是整合了当时比较主流的一些网络的优点。 1、YOLOV3的backbone改进：各个主干网络在imagenet上的运…

人工智能 2023年7月10日
0051
Prompt Learning详解

现阶段NLP最火的两个idea 一个是对比学习（contrastive learning）另一个就是 prompt prompt 说简单也很简单看了几篇论文之后发现其实就是构建…

人工智能 2023年5月27日
0065
C/C++树和图的应用

题目三哈夫曼编码/译码系统(树应用) [问题描述]根据哈夫曼编码算法，编写文件压缩及解压缩软件(有图像界面为最佳，无亦可)，可对word文件进行压缩，压缩时要求显示文件中每个字符…

人工智能 2023年6月27日
00105
AEB功能概览

一、引言 AEB即自动紧急制动，是最早的智能驾驶辅助系统落地功能之一，且目前已成为国内安全五星标准的必检项。欲了解AEB的功能，需要先对刹车系统控制有充分的理解，再结合ADAS本身…

人工智能 2023年6月2日
0077
【以例为引】gtsam简单入门（上）–理论和认识

如有错漏，请评论或者私信指出，感谢！！ GTSAM简介 GTSAM（Georgia Tech Smoothing and Mapping）是基于因子图的C++库，它由佐治亚理工学院…

人工智能 2023年7月28日
0059
从 0 开始最详细的 ChatGPT 注册教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0043
pandas转置处理表格内容（分组转置）

需求如下，需要将下列数据进行分组，且每组需要包含所有的值：转变的结果如下：实现代码如下： import pandas as pd df = pd.read_excel(r&quot…

人工智能 2023年7月7日
0062
全局坐标系与车身坐标系转换

在学习资料满天飞的大环境下，知识变得非常零散，体系化的知识并不多，这就导致很多人每天都努力学习到感动自己，最终却收效甚微，甚至放弃学习。我的使命就是过滤掉大量的无效信息，将知识体系…

人工智能 2023年6月2日
0053
pytorch构建的深度学习模型（pt文件）转换为onnx格式，并支持batch输入，以bert模型为例

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月22日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30