Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

2023年6月26日上午2:23 • 人工智能 • 阅读 122

文本到图像生成（T2I）模型旨在生成语义上与文本描述一致的照片逼真图像。在生成性对抗网络（GAN）最新进展的基础上，现有的T2I模型取得了巨大进展。然而，仔细检查它们生成的图像会发现两个主要局限性：（1）条件批量归一化方法平等适用于整个图像特征映射，忽略了局部语义；（2）文本编码器在训练过程中是固定的，它应该与图像生成器一起训练，以学习更好的文本表示，从而生成图像。为了解决这些局限性，我们提出了一种新的语义空间感知GAN框架，该框架以端到端的方式进行训练，以便文本编码器能够利用更好的文本信息。具体来说，我们介绍了一种新的语义空间感知卷积网络，该网络（1）学习以文本为条件的语义自适应变换，以有效地融合文本特征和图像特征；（2）以弱监督的方式学习掩码映射，该方法依赖于当前的文本-图像融合过程，以在空间上指导变换。在具有挑战性的COCO和CUB bird数据集上进行的实验表明，我们的方法在视觉保真度和与输入文本描述的一致性方面优于最近的最新方法

二、为什么提出SSA-GAN

堆叠式的结构虽然能够从粗到细生成图像，但是多个生成器-鉴别器对会导致更高的计算量和更不稳定的训练过程，且前两阶段的生成图像质量决定了最终的输出，如果前阶段没有生成大致框架的图像，后面生成的图像完全无法提高质量。
在以往的研究中，文本编码器在预训练完成后，就固定了参数，不再参与GAN整体框架的训练，如果文本编码器可以与图像生成器联合训练，它将更好地利用文本信息生成图像。

三、SSA-GAN

SSA-GAN的框架如下：

Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

整体来看，和DF-GAN很像，也是单级主干结构，但是把UPBlocks改成了 SSACN Blocks。SSA-GAN包括一个文本编码器，一个生成器，一个鉴别器，首先由一个随机整体噪声输入，经过FC层和一次Reshape后，连接七个SSACN层，生成图片后输入鉴别器进行鉴别，需要注意的是，在SSA-GAN中，文本编码器不固定参数，其也是生成器的一部分。

; 3.1、文本编码器

依旧采用的是AttnGAN的那套，其是 一个双向LSTM，通过最小化深度注意多模态相似模型（DAMSM）损失，使用真实图像-文本对进行预训练。

唯一不同的是，在之前的工作中，文本编码器都是固定参数了的，但是作者在这里试着把文本编码器归入生成器一起进行微调，实验显示其与SSA-GAN有一个微妙的相容，能进一步提高性能。

3.2、SSACN 块

SSACN块全称为：Semantic-Spatial Aware Convolutional Network
结构如下：

输入为上一个阶段输出的图像特征（图左下）f i − 1 ∈ R c h i − 1 × h i 2 × w i 2 f_{i-1} \in \mathbb{R}^{c h_{i-1} \times \frac{h_{i}}{2} \times \frac{w_{i}}{2}}f i −1 ∈R c h i −1 ×2 h i ×2 w i 和文本特征向量（图上方），输出为f i ∈ R c h i × h i × w i f_{i} \in \mathbb{R}^{c h_{i} \times h_{i} \times w_{i}}f i ∈R c h i ×h i ×w i 并传递给下一阶段作为输入。其中w i 、 h i 、 c h i w_i、h_i、ch_i w i 、h i 、c h i 分别为第i个块的宽、高和通道数。

每个SSACN块包括 一个上采样块，一个掩码预测器，一个语义空间条件批量规范化（SSCBN）和一个残差块。

; 3.2.1、上采样块

上采样块使用 双线性插值将图像特征的宽度和高度加倍

3.2.2、掩码预测器

模型使用的弱监督掩码预测器如下图所示，灰色框内为主体

以上采样后的图像特征为输入，经过卷积、BN、Relu、卷积和Sigmoid后输出掩码图m i ∈ R h i × w i m_{i} \in \mathbb{R}^{h_{i} \times w_{i}}m i ∈R h i ×w i , 该掩码图直观的指示了当前图像特征映射的哪些部分需要使用文本信息进行细节增强，以便增强语义一致性。

; 3.2.3、语义条件批量规范化（SCBN）

SCBN全称为：Semantic Condition Batch Normalization，其框架图如下，主体结构和DF-GAN很像，主要还是两个MLP。

首先解释什么是标准BN：给定一个输入为 x∈R n ∗ c ∗ h ∗ w R^{nch*w}R n ∗c ∗h ∗w,n是batch size，c是通道，h和w是高和宽，BN首先将x标准化为每个特征通道的零平均值和单位偏差：

x ^ n c h w = x n c h w − μ c ( x ) σ c ( x ) μ c ( x ) = 1 N H W Σ n , h , w x n c h w σ c ( x ) = 1 N H W Σ n , h , w ( x n c h w − μ c ) 2 + ϵ \begin{aligned} \hat{x}{n c h w} &=\frac{x{n c h w}-\mu_{c}(x)}{\sigma_{c}(x)} \ \mu_{c}(x) &=\frac{1}{N H W} \Sigma_{n, h, w} x_{n c h w} \ \sigma_{c}(x) &=\sqrt{\frac{1}{N H W} \Sigma_{n, h, w}\left(x_{n c h w}-\mu_{c}\right)^{2}+\epsilon} \end{aligned}x ^n c h w μc (x )σc (x )=σc (x )x n c h w −μc (x )=N H W 1 Σn ,h ,w x n c h w =N H W 1 Σn ,h ,w (x n c h w −μc )2 +ϵ
其中ϵ \epsilon ϵ为一个数值稳定性的小正常数。

然后进行通道仿射变换x ~ n c h w = γ c x ^ n c h w + β c \tilde{x}{n c h w}=\gamma{c} \hat{x}{n c h w}+\beta{c}x ~n c h w =γc x ^n c h w +βc ，学习参数γc和βc。

在CBN中,公式被重述为：
x ~ n c h w = γ ( con ) x ^ n c h w + β ( con ) \tilde{x}{n c h w}=\gamma(\text { con }) \hat{x}{n c h w}+\beta(\text { con })x ~n c h w =γ(con )x ^n c h w +β(con )
其就是将参数换成了一个函数，CBN能学习自适应于仿射变换给定条件的调制参数γ和β。

SCBN就是在CBN的具体实现，文本向量e作为自变量的函数：γ c = P γ ( e ˉ ) , β c = P β ( e ˉ ) \gamma_{c}=P_{\gamma}(\bar{e}), \quad \beta_{c}=P_{\beta}(\bar{e})γc =P γ(e ˉ),βc =P β(e ˉ)，P γ ( ) P_γ()P γ()和P β ( ) P_β()P β()代表了MLP块。

3.2.4、语义空间条件批量规范化（S-SCBN）

不添加更多的空间信息，则上一步的SCBN将在图像特征图上均匀地工作。理想情况下，我们希望微调只对特征图中与文本相关的部分起作用。

于是 作者将掩码预测器输出的掩码图添加到SCBN中作为空间条件，学习参数的公式被修改为：
x ~ n c h w = m i , ( h , w ) ( γ c ( e ˉ ) x ^ n c h w + β c ( e ˉ ) ) . \tilde{x}{n c h w}=m{i,(h, w)}\left(\gamma_{c}(\bar{e}) \hat{x}{n c h w}+\beta{c}(\bar{e})\right) .x ~n c h w =m i ,(h ,w )(γc (e ˉ)x ^n c h w +βc (e ˉ)).

其中，可以看出m i ( h , w ) m_{i(h,w)}m i (h ,w ) 不仅决定在何处添加文本信息，还起到了权重作用即决定要在某个部分上加强多少文本信息。这就是S-SCBN的原理。

3.3、鉴别器

鉴别器 与DF-GAN 相同，一样是单向输出和匹配感知梯度惩罚（MA-GP），这里不再赘述。

3.4、损失函数

鉴别器损失：采用了单向输出鉴别器，使用了MA-GP损失相关的对抗性损失
L a d v D = E x ∽ p d a t a [ max ⁡ ( 0 , 1 − D ( x , s ) ) ] + 1 2 E x ∼ p G [ max ⁡ ( 0 , 1 + D ( x ^ , s ) ) ] + 1 2 E x ∼ p d a t a [ max ⁡ ( 0 , 1 + D ( x , s ^ ) ) ] + λ M A E x ∽ p d a t a [ ( ∥ ∇ x D ( x , s ) ∥ 2 + ∥ ∇ s D ( x , s ) ∥ 2 ) p ] , \begin{aligned} \mathcal{L}{a d v}^{D}=& E{x \backsim p_{d a t a}}[\max (0,1-D(x, s))] \ &+\frac{1}{2} E_{x \sim p_{G}}[\max (0,1+D(\hat{x}, s))] \ &+\frac{1}{2} E_{x \sim p_{d a t a}}[\max (0,1+D(x, \hat{s}))] \ &+\lambda_{M A} E_{x \backsim p_{d a t a}}\left[\left(\left\|\nabla_{x} D(x, s)\right\|{2}\right.\right.\ &\left.\left.+\left\|\nabla{s} D(x, s)\right\|_{2}\right)^{p}\right], \end{aligned}L a d v D =E x ∽p d a t a [max (0 ,1 −D (x ,s ))]+2 1 E x ∼p G [max (0 ,1 +D (x ^,s ))]+2 1 E x ∼p d a t a [max (0 ,1 +D (x ,s ^))]+λM A E x ∽p d a t a [(∥∇x D (x ,s )∥2 +∥∇s D (x ,s )∥2 )p ],

其中s是给定的文本描述，s ^ {\hat{s}}s ^是不匹配的文本描述，x是对应于s的真实图像，x ^ \hat{x}x ^是生成的图像，D（）是鉴别器给出的是否匹配的判断，λ M A λ_MA λM A和p是MA-GP的超参数。

生成器损失：生成器损失由对抗损失和DAMSM(单词级细粒度图像文本匹配)损失构成：
L G = L a d v G + λ D A L D A M S M L a d v G = − E x ∽ p G [ D ( x ^ , s ) ] , \begin{aligned}\mathcal{L}{G} &=\mathcal{L}{a d v}^{G}+\lambda_{D A} \mathcal{L}{D A M S M} \ \mathcal{L}{a d v}^{G} &=-E_{x \backsim p_{G}}[D(\hat{x}, s)], \end{aligned}L G L a d v G =L a d v G +λD A L D A M S M =−E x ∽p G [D (x ^,s )],

四、实验

4.1、数据集

CUB-Birds、COCO

4.2、评价指标

IS、FID

4.3、实验细节

硬件：4块 2080Ti
架构：Pytorch
优化器：Adam: β 1 β_1 β1 =0.0,β 2 β_2 β2 =0.9
学习率：生成器0.0001，鉴别器0.0004
超参数：p=6，λ M A λ_{MA}λM A =2, λ D A λ_{DA}λD A =0.1
epoch轮数： CUB 600轮 COCO 120轮

4.4、实验结果

4.4.1、定量分析

; 4.4.3、定性分析

生成图片的效果：

在不同SSACN块中预测的掩码贴图，从左到右七个由浅至深的预测掩码图：

详情请看原文

4.4.2、消融研究

3是指把文本编码器也代入进行微调。可以看到虽然IS有提高，但是FID的指标却没那么好了，作者分析的原因是微调文本编码器有助于文本图像融合，提高文本图像的一致性，从而提高is分数，文本与图像一致的同时导致图像多样性下降，所以FID会变差。个人认为这个说服力不太强，有待商榷。

使用的不同数量的掩码图对实验效果的影响：

; 五、总结

该论文提出了一种新的用于T2I生成的语义空间感知GAN（SSA-GAN）框架，主要是在生成器上做的工作，创新如下：

一种语义空间感知卷积网络（SSACN）模块，通过基于当前生成的图像特征预测掩码映射草图，这种掩码图不仅可以决定在何处添加文本信息，还起到了权重作用即决定要在某个部分上加强多少文本信息。
一种新的仿射参数计算方法，将掩码图添加到SCBN中作为空间条件，然后从编码的文本向量中学习仿射参数，对语义空间条件进行批量归一化。

最后

💖 个人简介：人工智能领域研究生，目前主攻文本生成图像（text to image）方向

📝 个人主页：中杯可乐多加冰

🔥 限时免费订阅：文本生成图像T2I专栏

🎉 支持我：点赞👍+收藏⭐️+留言📝

Original: https://blog.csdn.net/air__Heaven/article/details/124469059
Author: 中杯可乐多加冰
Title: Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651974/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RNA 12. SCI 文章中肿瘤免疫浸润计算方法之 CIBERSORT

免疫浸润也是近几年肿瘤研究的一个重要方向。通过表达数据即可推算出这个整体样本中究竟有哪些免疫细胞。下面我们就基于数据库数据来看下整个流程分析！前言我们介绍了CIBERSORT，…

人工智能 2023年6月19日
00206
MoCo代码分析 [自监督学习]

✅ 个人简介：南京邮电大学，计算机科学与技术，在读本科 ● 前驱文章一：《MoCo v1 文献研究 [自监督学习]》 ● 前驱文章二：《MoCo v2 文献研究 [自监督学习]》 …

人工智能 2023年6月12日
00120
K近邻算法(KNN)及案例（Python）

1 算法简介 2 算法计算步骤 3 代码实现补充知识点：K近邻算法回归模型 4 案例：手写数字识别模型 4.1 手写数字识别原理 4.1.1 图像二值化 4.1.3 距离计算 4…

人工智能 2023年6月15日
0079
JAVA互联网一线大厂面试真题自测，顺便看看大牛的通行证

前言熟练的掌握Java的核心底层技能很重要，这样才能从容面对面试官的种种考验，小编整理的这份面试清单都是各大厂的面试真题总结得出来的，感兴趣的挑战自己的技术层级的就赶紧来试试吧，…

人工智能 2023年6月27日
0095
学校图书借阅管理系统(MySQL)

文章目录一.需求分析 * 1.1项目需求分析简介 1.2数据字典 – 1.2.1数据项 1.2.2数据结构二.数据库概念结构设计 * 2.1数据流图 2.2数据库逻…

人工智能 2023年7月30日
0043
torch.nn.functional.interpolate()函数详解

通常可以使用pytorch中的torch.nn.functional.interpolate()实现插值和上采样。上采样，在深度学习框架中，可以简单理解为任何可以让你的图像变成…

人工智能 2023年5月26日
00102
2021年中国知识图谱软件及服务市场规模超100亿，竞争格局不稳定

易观分析：易观分析认为，受宏观经济下行与疫情影响，2021年中国人工智能软件及服务市场规模增速下降，市场向”高质低价”方向发展。近年来，随着大规模语言模型与…

人工智能 2023年6月1日
0089
【数据科学项目02】：NLP应用之垃圾短信/邮件检测（端到端的项目）

垃圾短信检测（端到端的项目）我们都听说过一个流行词—— “数据科学”。我们大多数人都对”它是什么？我可以成为数据分析师或数据科学家吗？我需要什…

人工智能 2023年7月25日
0070
AI遮天传 ML-KNN

我们之前学习的方法如决策树、回归分析、贝叶斯分析都可以看作是三步走的学习方法，即：估计问题的特征(如分布) 做出模型假设(LSE、Decision、Tree、MAP、MLE …

人工智能 2023年6月15日
0093
【Python数据分析】实践编写篇2：用Python进行回归分析与相关分析

目录一、前言 1.1 回归分析 1.2 相关分析二、代码的编写 2.1 前期准备 2.2 编写代码 2.2.1 相关分析 2.2.2 一元线性回归分析 2.2.3 多元线性回归…

人工智能 2023年6月16日
00110
针对Python3.9的Tensorflow安装

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0083
详解OpenCV的函数cv::add(),并附各种情况的示例代码和运行结果

函数cv::add()用于实现两个Mat类矩阵相加，或者矩阵和标量相加。函数add()的原型如下： void cv::add(InputArray src1, InputArra…

人工智能 2023年6月19日
0067
R语言——实验一：回归分析

一元线性回归实验绘制散点图，并判断身高与体重之间是否大致呈线性关系利用 R 编程，计算身高和体重之间的相关系数；利用 R 编程，求解回归方程系数，并在身高与体重的散点图中显示…

人工智能 2023年6月19日
0074
朴素贝叶斯算法原理与Python实现

1 算法介绍朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive …

人工智能 2023年7月18日
0066
Pytorch 带你一行一行分析训练脚本

目录 1.引言 2.数据集处理部分 2.引入网络模型、损失函数、优化器 3.训练过程 4.验证过程 1.引言在使用pytorch进行深度学习模型训练时，训练脚本是不可或缺的一部分…

人工智能 2023年7月21日
0073
在ubuntu18.04上利用奥比中光Astra Pro相机实现ORB-SLAM2实时运行

本文使用的奥比中光Astra Pro为RGB-D相机。一、安装ROS 可以参考这篇博客 Ubuntu18.04安装ROS Melodic 二、安装ORB-SLAM2（可参考这篇…

人工智能 2023年6月10日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31