【生成对抗网络GAN】原理及实现

2023年5月28日下午5:47 • 人工智能 • 阅读 74

文章目录

【生成对抗网络GAN】原理及实现
*
1. GAN的实现原理
2. GAN的数学原理（简单了解的同学可以不看这里）
–
- 2.1. 训练Discriminator的数学原理
- 2.2. 训练Generator的数学原理
3. GAN的算法实现（Python）
4. ArcaneGAN虚拟人脸生成

【生成对抗网络GAN】原理及实现

文献链接

1. GAN的实现原理

GAN的基本架构如下图所示。

图源
GAN的核心是 生成器Generator和 判别器Discriminator。二者本质上都是多层感知机网络。

Generator：负责根据随机信号产生数据（ 无中生有）
Discriminator：负责判定Generator生成数据的真伪（ 火眼金睛）

GAN训练的基本流程：每一轮梯度反向传播过程中，先训练Discriminator，再训练Generator。

具体来说，假设现在进行第k轮训练：

先训练Discriminator： 先固定Gennerator，即Gennerator的参数此时不更新。将真图像和上一轮产生的假图像G k − 1 ( z ) G^{k-1}(z)G k −1 (z )拼接在一起，分别打上 标签1和0。 拼接的图像x输入Discriminator进行打分，得到一个 score。根据score和标签的损失函数loss就可以梯度反向传播，更新Discriminator的参数。（ 相当于训练一个二分类神经网络D）
后训练Generator： 先固定Discriminator： discriminator.trainable = False，即Discriminator的参数此时不能更新。Generator根据输入随机信号z产生假图像G^{k-1}(z)，输入Discriminator进行打分score。score和标签1之间的差值作为损失函数loss反向传播，更新Generator的参数。

; 2. GAN的数学原理（简单了解的同学可以不看这里）

变量命名：

p d a t a p_{data}p d a t a ：产生数据的概率分布（真图像）
p g p_{g}p g ：随机信号的先验概率（假图像）

2.1. 训练Discriminator的数学原理

2.1.1. 最优解D G ∗ ( x ) D^*_G(x)D G ∗(x )
用D G ( x ) D_G(x)D G (x )表示假图像与真图像之间的相似性，即上文的score。D G ( x ) D_G(x)D G (x )越大，则Generator以假乱真的能力越强。

2.1.2. 优化问题max ⁡ V ( G , D ) \max V(G,D)max V (G ,D )
Discriminator的优化目标是增强判别真假的能力，因此可以归纳为一个优化问题，即max ⁡ D V ( G , D ) \max_D V(G,D)max D V (G ,D )。因为Generator已经固定，有x = g ( z ) x=g(z)x =g (z )，x x x与z z z一一映射。因此，第二项可以用x x x替换z z z。
【生成对抗网络GAN】原理及实现

很明显，V ( G , D ) V(G,D)V (G ,D )是一个香农熵（Jesen-Shannon Divergence，JSD）的形式，是为了衡量两种概率分布（这里是，p d a t a p_{data}p d a t a 和p g p_g p g ）的相似性提出的方法。
D J S ⁡ ( P ∥ Q ) = 1 2 D K L ( P ∥ M ) + 1 2 D K L ( Q ∥ M ) \operatorname{D_{\mathrm{JS}}}(P \| Q)=\frac{1}{2} D_{\mathrm{KL}}(P \| M)+\frac{1}{2} D_{\mathrm{KL}}(Q \| M)D J S (P ∥Q )=2 1 D K L (P ∥M )+2 1 D K L (Q ∥M )
其中，M = P + Q 2 M=\frac{P+Q}{2}M =2 P +Q 。D K L ( ∗ ) D_{\mathrm{KL}}(*)D K L (∗)表示相对熵（Kullback-Leibler Divergence，KLD）。
D K L ( P ∥ Q ) = ∫ x P ( x ) ln ⁡ P ( x ) Q ( x ) D_{\mathrm{KL}}(P \| Q)=\int_x P(x) \ln \frac{P(x)}{Q(x)}D K L (P ∥Q )=∫x P (x )ln Q (x )P (x )

我们要找到V ( G , D ) V(G,D)V (G ,D )的极大值，因此对式(3)积分号内的数学表达式关于D ( x ) D(x)D (x )求导，导数为0处即为极大值点：
p d a t a ( x ) 1 ln ⁡ 10 1 D ( x ) − p g 1 ln ⁡ 10 1 1 − D ( x ) = 0 p_{data}(x)\frac{1}{\ln10}\frac{1}{D(x)}-p_g\frac{1}{\ln10}\frac{1}{1-D(x)}=0 p d a t a (x )ln 1 0 1 D (x )1 −p g ln 1 0 1 1 −D (x )1 =0
进而有
D G ∗ ( x ) = p data ( x ) p data ( x ) + p g ( x ) ∈ [ 0 , 1 ] D_{G}^{}(\boldsymbol{x})=\frac{p_{\text {data }}(\boldsymbol{x})}{p_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})}\in[0,1]D G ∗(x )=p data (x )+p g (x )p data (x )∈[0 ,1 ]
易知，p g = p d a t a p_g=p_{data}p g =p d a t a 时，D G ∗ D^G D G ∗的值最大。
D G , m a x ∗ = 1 2 D^*{G,max}=\frac{1}{2}D G ,m a x ∗=2 1

; 2.2. 训练Generator的数学原理

Discriminator固定时，令损失函数C ( G ) = V ( G , D G ∗ ) = max ⁡ D V ( G , D ) C(G)=V(G, D^*G)=\max {D} V(G,D)C (G )=V (G ,D G ∗)=max D V (G ,D )，优化目标转变成使生成假图像尽可能接近真实图像。因此，形成了一个新的优化问题：min ⁡ G C ( G ) = min ⁡ G max ⁡ D V ( G , D ) \min_G C(G)=\min_G \max _{D} V(G, D)min G C (G )=min G max D V (G ,D )。

那什么时候C ( G ) C(G)C (G )最小呢？
应该是p g p_g p g 和p d a t a p_{data}p d a t a 最接近的时候，即生成的假图像最接近真实图像。理想的情况就是和真图像一摸一样。
那么，用香农熵考察p g p_g p g 和p d a t a p_{data}p d a t a 的相似性：
D J S ( p d a t a ∥ p g ) = 1 2 D K L ( p d a t a ∥ p d a t a + p g 2 ) + 1 2 D K L ( p g ∥ p d a t a + p g 2 ) = 1 2 ( log ⁡ 2 + ∫ x p d a t a ( x ) log ⁡ p d a t a ( x ) p d a t a + p g ( x ) d x ) + 1 2 ( log ⁡ 2 + ∫ x p g ( x ) log ⁡ p g ( x ) p d a t a + p g ( x ) d x ) = 1 2 ( log ⁡ 4 + V ( G , D G ∗ ) ) = 1 2 ( log ⁡ 4 + C ( G ) ) \begin{aligned} D_{J S}\left(p_{data} \| p_{g}\right)=& \frac{1}{2} D_{K L}\left(p_{data} \| \frac{p_{data}+p_{g}}{2}\right)+\frac{1}{2} D_{K L}\left(p_{g} \| \frac{p_{data}+p_{g}}{2}\right) \ =& \frac{1}{2}\left(\log 2+\int_{x} p_{data}(x) \log \frac{p_{data}(x)}{p_{data}+p_{g}(x)} d x\right)+\ & \frac{1}{2}\left(\log 2+\int_{x} p_{g}(x) \log \frac{p_{g}(x)}{p_{data}+p_{g}(x)} d x\right) \ =& \frac{1}{2}\left(\log 4+V\left(G, D^{}G\right)\right)\ =& \frac{1}{2}\left(\log 4+C\left(G\right)\right) \end{aligned}D J S (p d a t a ∥p g )====2 1 D K L (p d a t a ∥2 p d a t a +p g )+2 1 D K L (p g ∥2 p d a t a +p g )2 1 (lo g 2 +∫x p d a t a (x )lo g p d a t a +p g (x )p d a t a (x )d x )+2 1 (lo g 2 +∫x p g (x )lo g p d a t a +p g (x )p g (x )d x )2 1 (lo g 4 +V (G ,D G ∗))2 1 (lo g 4 +C (G ))
进而，C ( G ) C(G)C (G )可以表示为
C ( G ) = − log ⁡ ( 4 ) + 2 ⋅ D J S ( p data ∥ p g ) C(G)=-\log (4)+2 \cdot D{JS}\left(p_{\text {data }} \| p_{g}\right)C (G )=−lo g (4 )+2 ⋅D J S (p data ∥p g )
因为香农熵D J S ( ∗ ) D_{JS}()D J S (∗)非负，且在p g = p d a t a p_g=p_{data}p g =p d a t a 时取到D J S ( p data ∥ p g ) = 0 D_{JS}\left(p_{\text {data }} \| p_{g}\right)=0 D J S (p data ∥p g )=0，有损失函数最小值C ∗ ( G ) = − log ⁡ 4 C^*(G)=-\log4 C ∗(G )=−lo g 4。

3. GAN的算法实现（Python）

我将实现的GAN开源在Colab上：Code

4. ArcaneGAN虚拟人脸生成

介绍一个GitHub上好玩的GAN项目《双城之战》风格人脸生成ArcaneGAN

Original: https://blog.csdn.net/qq_41502322/article/details/124120727
Author: HelloNettt
Title: 【生成对抗网络GAN】原理及实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532809/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ubuntu18.04安装nvidia_driver_510+cuda_11.6+cudnn_11.x

一、安装nvidia_driver 2.1首先我们需要添加源 sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt u…

人工智能 2023年7月22日
0057
90+个各种疾病相关医疗数据集

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0086
图像分类网络6——VGG16识别5分类（ImageDataGenerator和迁移学习）

目录 1 VGG16 * 1.1 VGG16简介 1.2 VGG16结构 1.3 VGG16特点 2 数据文件 3 代码 * 3.1 ImageDataGenerator和VGG1…

人工智能 2023年7月2日
0058
pytorch-实现天气识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍦 参考文章：365天深度学习训练营-第P3周：天气识别 )**** *🍖 原作者：K同学啊|接辅导、项目定制我的环境语言…

人工智能 2023年6月23日
0096
Python数据分析与应用_从数据获取到可视化题库及答案

*填空题 *判断题 *选择题 *简答题 *填空题 *判断题 *选择题 arr_2d = np.array([[11, 20, 13],[14, 25, 16],[27, 18, 9…

人工智能 2023年7月14日
0071
CenterFusion代码复现

CenterFusion代码复现参考代码：GitHub – mrnabati/CenterFusion: CenterFusion: Center-based Rad…

人工智能 2023年6月10日
00120
MySQL索引分类及相关概念辨析

之前的一篇《MySQL索引底层数据结构及原理深入分析》很受读者欢迎，成功地帮大家揭开了索引的神秘面纱，有读者留言说分不清各种索引的概念，希望能讲一下。确实，数据库中索引种类很多，如…

人工智能 2023年7月1日
0071
【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配

; 【自然语言处理（NLP）】基于ERNIE语言模型的文本语义匹配作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学…

人工智能 2023年5月31日
0091
数据增强神器 SimpleCopyPaste 支持全流程

引言 SimpleCopyPaste 数据增强是谷歌在 2021 年 1 月提出的一种实例分割的数据增强方法，它通过在训练过程中直接将一张图片中的实例简单地复制粘贴到另外一张图片中…

人工智能 2023年7月28日
0079
2022年全球程序员薪资排行出炉：中国倒数第九，GO最赚钱

今年七月，CodeSubmit 统计分析了 27个软件开发比较活跃的国家的程序员的薪资情况，美国、瑞士、以色列位列前三，美国程序员的平均薪资达到了110140美元，折合人民币约80…

人工智能 2023年6月28日
0087
论文导读：CoAtNet是如何完美结合 CNN 和 Transformer的

这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes。（2021…

人工智能 2023年7月13日
0063
ARIMA差分自回归移动平均模型–时间序列预测

ARIMA差分自回归移动平均模型 1、ARIMA模型理论基础 2、ARIMA建模步骤 3、ARIMA建模实战 * 3.1 导入模块 3.2 加载数据 3.3 平稳性检验 3.4 单…

人工智能 2023年6月19日
0090
DNN（全连接神经网络）

一. DNN网络一般分为三层 1.输入层 2.隐藏层 3.输出层简单网络如下：二.前向传播从第二层开始，每一个神经元都会获得它上一层所有神经元的结果。即每一个 y = wx …

人工智能 2023年7月12日
0078
【Day 1】机器阅读理解——机器阅读理解简介

引言本系列文章会介绍机器阅读理解相关技术和模型。主要按照以下线路： ; 机器阅读理解介绍 NLP四大基本任务：序列标注：分词、词性标注分类任务：文本分类、情感分析句子关系：…

人工智能 2023年5月31日
0068
机器视觉3：光度立体技术

（1）实验素材中提供了花瓶，球，莫扎特半身像的高度数据（vase.mat, mozart.mat, sphere.mat）。利用load命令将高度数据加载后，对高度数据求出梯度，并…

人工智能 2023年5月28日
0075
python数据分析及可视化（十五）数据分析可视化实战篇（抖音用户数据分析、二手房数据分析）

python数据分析的实战篇，围绕实例的数据展开分析，通过数据操作案例来了解数据分析中的频繁用到的知识内容。抖音用户数据分析 1.理解数据数据字段含义了解数据内容，确保数据来…

人工智能 2023年6月26日
00148

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【生成对抗网络GAN】原理及实现

文章目录

1. GAN的实现原理

; 2. GAN的数学原理（简单了解的同学可以不看这里）

2.1. 训练Discriminator的数学原理

; 2.2. 训练Generator的数学原理

3. GAN的算法实现（Python）

4. ArcaneGAN虚拟人脸生成

大家都在看