014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

2023年10月10日下午12:01 • Python • 阅读 48

High-Resolution Image Synthesis with Latent Diffusion Models

1. Introduction

本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)

主要做法是在VQGAN增强版做diffusion。

在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。

本文的主要贡献：

比VQGAN重建的效果更好，而且可以更有效地应用到高分辨率的生成。
LDE在不同的任务上有着比较好的表现。包括（unconditional image synthesis，inpainting，super-resolution）。而且比在像素空间的diffusion，采样的代价要更低。
相比于之前在隐空间的方法，LDE不需要对隐空间做太多的正则化，而且可以有高保真的重建效果。
可以以卷积的方式应用于多种条件生成任务。
实现了一种基于cross-attention的条件机制，可以应用于多模态的训练。

2. Method

2.1 Perceptual Image Compression

其实也就是模型的第一个阶段，将原始图像编码到隐空间，也就是一种压缩。为了避免隐空间方差过大，作者采用了两种改进的方式，第一种是加入了KL散度的约束作为正则化，类似于VAE，要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化，类似于VQGAN。

2.2 Latent Diffusion Models

这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。

014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

; 2.3 Conditional Mechanisms

对于多模态的条件输入，先用一个编码器 τ θ \tau_{\theta}τθ 将条件信息 y y y 比如文本，编码为中间的表示 τ θ ( y ) \tau_{\theta}(y)τθ(y ) 然后与UNet的输出一起作cross-attention

3. 实验结果

首先尽管VQ正则化的重建效果比KL正则化略差，但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image，layout-to-image，semantic-to-image，super-resolution都能达到比较好的效果。

Original: https://blog.csdn.net/D_Trump/article/details/126837838
Author: Artificial Idiots
Title: 014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/795435/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python中for循环的底层实现

在python中，存在2种循环方式：for循环和while循环。while循环的实现很简单，其本质就是一个条件语句，自定义条件，当条件满足的时候，不断执行while代码块。但是…

Python 2023年5月25日
0059
Python作业题：组合数据类型（带有答案和详细分析过程）

本次作业涉及到的知识点获取变量地址的id函数（1 Python列表的浅复制和深复制（1 字符串join函数的使用（2 列表的遍历（3 列表元素的排序（4 列表的常用方法（5 作业…

Python 2023年9月15日
0039
33【源码】数据可视化：基于 Echarts + Python Flask 动态实时大屏 – 制造业生产管理看板

效果展示 1.动态实时更新数据效果图 2.鼠标右键切换主题一.确定需求方案 1. 屏幕分辨率这个案例的分辨率是16:9，最常用的的宽屏比。根据电脑分辨率屏幕自适应显示，F11…

Python 2023年8月9日
00105
2022版最新最详细Manim开发环境搭建

安装前提示 Python版本要求： Python3.7+ 使用 pip 安装时，最好使用镜像，负责可能会因为网络安装失败，因为安装依赖较多且依赖包较大。以豆瓣源镜像示例： pip…

Python 2023年10月31日
0073
python可视化分析（十）-绘制带直方图的密度图

实现功能： _python_绘制带直方图的密度图。sns.distplot:直方图（hist）+内核密度函数（kde）。 _ 实现代码：_ import pandas as pd …

Python 2023年9月2日
0053
Dataframe和ndarray相互转换

读取文件数据时通常得到的是dataframe格式的，如通过pd.read_csv。有时需要将dataframe格式的数据转换成ndarray的数组形式。 ndarray: NumP…

Python 2023年8月6日
00100
浅谈CVPR2022的几个研究热点

CVPR2022刚刚结束，作为影响力最广的视觉盛会，今年又有一批优秀的工作被展示出来。相信关注视觉最新研究进展的各位小伙伴，已经磨拳擦掌，准备向CVPR2023投稿了。基于今年的工…

Python 2023年9月16日
0037
Python基础-23枚举

23 枚举枚举是符号名称(枚举成员)的集合，应该是唯一且不可变的。 [En] An enumeration is a collection of symbolic names (…

Python 2023年5月23日
0072
归纳推理测试没做完_Pandas50道练习题，Numpy100道没做完的同学不许点开！

——本文依旧转载自Datawhale社区 Pandas 是基于 NumPy 的一种数据处理工具，该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型，提…

Python 2023年8月7日
0052
Python图像处理【1】图像与视频处理基础

图像与视频处理基础 * – 0. 前言 – 1. 在 3D 空间中显示 RGB 图像颜色通道 – + 1.1 图像表示 + 1.2 在 3D 空…

Python 2023年9月17日
0040
Python小游戏——外星人入侵（保姆级教程）第一章 03设置飞船图片 04创建Ship类

系列文章目录第一章：武装飞船 03：设置飞船图片 04：创建Ship类——管理飞船行为的类一、设置飞船图片 1.注意事项 A.将图片设置为位图bmp格式最简单，因为pygame…

Python 2023年6月11日
00104
基于JavaSpringboot+vue国风汉服文化交流宣传系统

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

Python 2023年11月6日
0045
目标检测–边框回归损失函数SIoU原理详解及代码实现

边框回归损失函数 * – 1. SIoU – + 1.1 原理 + 1.2 代码实现 1. SIoU 1.1 原理有关IoU损失函数，如(GIoU, DI…

Python 2023年10月26日
0053
带你从0到1开发AI图像分类应用

摘要：通过一个垃圾分类应用的开发示例，介绍AI Gallery在AI应用开发流程中的作用。现如今，人工智能（AI）技术在计算机领域内，得到了越来越广泛的重视，并在各行各业中得到应…

Python 2023年10月24日
0045
数据可视化~matplotlib阶梯图，直方图

原文链接：http://www.juzicode.com/archives/2630 这篇文章介绍matplotlib绘制阶梯图和直方图，直方图在图像处理中有比较广泛的用途，用来表…

Python 2023年9月6日
0092
评论情感分析—-多种机器学习模型测试总结

文章目录 * – 前言 – + Step1: 读取评论文件 + Step2: 去除重复评论信息 + Step3: 使用jieba库进行分词操作 + Step…

Python 2023年10月7日
0045

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31