GAN 简介

2023年7月13日下午9:46 • 人工智能 • 阅读 64

GAN

原理：

GAN 的主要灵感来源于博弈论中零和博弈的思想，应用到深度学习神经网络上来说，就是 通过生成网络 G（Generator）和判别网络 D（Discriminator）不断博弈，进而使 G 学习到数据的分布，如果用到图片生成上，则训练完成后，G 可以从一段随机数中生成逼真的图像。

G 是一个生成网络，其 输入为一个随机噪音，在训练中 捕获真实数据的分布，从而生成尽可能真实的数据并让 D 犯错
D 是一个判别网络，判别生成的数据是不是”真实的”。它的输入参数是 x，输出 D(x) 代表 x 为真实数据的概率， 如果为 1，就代表 100% 是真实的数据，而 输出为 0，就代表不可能是真实的数据

为了从数据 x 中学习到生成器的分布 p g p_g p g ，我们定义一个输入噪音变量 p z ( z ) p_z(z)p z (z )，然后将其映射到数据空间得到 G ( z ; θ g ) G(z;\theta_g)G (z ;θg )。D ( x ; θ d ) D(x; \theta_d)D (x ;θd ) 输出是一个数，代表 x x x 来自真实数据而不是 p g p_g p g 的概率。
min ⁡ G max ⁡ D V ( D , G ) = E x ∼ p d a t a ( x ) [ l o g ( D ( x ) ) ] + E z ∼ p z ( z ) [ l o g ( 1 − D ( G ( z ) ) ) ] ① 训练 D 来最大化辨别能力： max ⁡ D V ( D , G ) = E x ∼ p d a t a ( x ) [ l o g ( D ( x ) ) ] + E z ∼ p z ( z ) [ l o g ( 1 − D ( G ( z ) ) ) ] ② 训练 G 来最小化 l o g ( 1 − D ( G ( z ) ) ) ： min ⁡ G V ( D , G ) = E z ∼ p z ( z ) [ l o g ( 1 − D ( G ( z ) ) ) ] ③ \begin{aligned} &\min_G \max_D V(D,G) = E_{x∼p_{data}(x)}[log(D(x))]+E_{z∼p_{z}(z)}[log(1−D(G(z)))] \qquad ①\ &训练 D 来最大化辨别能力：\quad \max_D V(D,G)=E_{x∼p_{data}(x)}[log(D(x))]+E_{z∼p_z(z)}[log(1−D(G(z)))]\qquad② \ &训练 G 来最小化log(1−D(G(z)))：\quad \min_G V(D,G)=E_{z∼p_z(z)}[log(1−D(G(z)))]\qquad③ \ \end{aligned}G min D max V (D ,G )=E x ∼p d a t a (x )[l o g (D (x ))]+E z ∼p z (z )[l o g (1 −D (G (z )))]①训练D 来最大化辨别能力：D max V (D ,G )=E x ∼p d a t a (x )[l o g (D (x ))]+E z ∼p z (z )[l o g (1 −D (G (z )))]②训练G 来最小化l o g (1 −D (G (z )))：G min V (D ,G )=E z ∼p z (z )[l o g (1 −D (G (z )))]③
注：max ⁡ D \max_D max D 表示令 D ( x ) D(x)D (x ) 尽可能大以便找出真实数据，而令 D ( G ( z ) ) D(G(z))D (G (z )) 尽可能小以便区分出伪造数据，最后导致 ② 式尽可能大；min ⁡ G \min_G min G 表示令 D ( G ( z ) ) D(G(z))D (G (z )) 尽可能大从而混淆判别器，最后导致 ③ 式尽可能小。训练早期，G 的拟合程度很低，D 可以被训练得很好，导致 log(1-D(G(z))) 趋于 0，进而使回传梯度很小，导致训练效果不行。因此，比起 minimize log(1-D(G(z)))， maximize log(D(G(z))) 会更好。

注：将随机噪音 z 映射到 x 上（x = G(z)），使 x 尽可能拟合真实数据 data 的分布。绿色实线为生成的数据 p_g，黑色点为真实数据 p_data，蓝色虚线为判别器 D。每次训练 G 都使 p_g 尽可能拟合 p_data，而判别器 D 则会调整从而尽可能将 p_g 和 p_data 区分开。当 D(x) = 0.5 时，判别器将无法区分真假。

; 算法：

小结：

命题1：当 G 被固定住时，最优的辨别器 D 如下
D G ∗ ( x ) = p d a t a ( x ) p d a t a ( x ) + p g ( x ) = 1 2 ∈ [ 0 , 1 ] D_G^(x) = \frac{p_{data}(x)}{p_{data}(x)+p_g(x)} = \frac{1}{2} \in [0, 1]D G ∗(x )=p d a t a (x )+p g (x )p d a t a (x )=2 1 ∈[0 ,1 ]
证明：
E x ∼ p f ( x ) = ∫ x p ( x ) f ( x ) d x x = g ( z ) V ( G , D ) = ∫ x p d a t a ( x ) log ⁡ ( D ( x ) ) d x + ∫ z p z ( z ) log ⁡ ( 1 − D ( g ( z ) ) ) d z = ∫ x p d a t a ( x ) log ⁡ ( D ( x ) ) + p g ( x ) log ⁡ ( 1 − D ( x ) ) d x 记： V ( G , D ) = ∫ x a ⋅ log ⁡ ( y ) + b ⋅ log ⁡ ( 1 − y ) d x 则函数 y → a ⋅ log ⁡ ( y ) + b ⋅ log ⁡ ( 1 − y ) 在 [ 0 , 1 ] 里最大值为： a a + b = p d a t a ( x ) p d a t a ( x ) + p g ( x ) \begin{aligned} &E_{x∼p}f(x) = \int_xp(x)f(x)dx \qquad x = g(z) \ &V(G, D) = \int_x p_{data}(x)\log{(D(x))}dx + \int_zp_z(z)\log{(1-D(g(z)))}dz = \int_x p_{data}(x)\log{(D(x))} + p_g(x)\log{(1-D(x))}dx\ &记：V(G, D) = \int_x a \cdot \log(y) + b \cdot \log{(1-y)} dx\qquad \ &则函数 \quad y \rightarrow a \cdot \log(y) + b \cdot \log{(1-y)} 在 [0, 1]里最大值为：\quad \frac{a}{a+b} = \frac{p_{data}(x)}{p_{data}(x)+p_g(x)} \end{aligned}E x ∼p f (x )=∫x p (x )f (x )d x x =g (z )V (G ,D )=∫x p d a t a (x )lo g (D (x ))d x +∫z p z (z )lo g (1 −D (g (z )))d z =∫x p d a t a (x )lo g (D (x ))+p g (x )lo g (1 −D (x ))d x 记：V (G ,D )=∫x a ⋅lo g (y )+b ⋅lo g (1 −y )d x 则函数y →a ⋅lo g (y )+b ⋅lo g (1 −y )在[0 ,1 ]里最大值为：a +b a =p d a t a (x )+p g (x )p d a t a (x )
定理1：当且仅当 p g p_g p g = p d a t a p_{data}p d a t a 时， C(G) 取得全局最小值，为 -log4
C ( G ) = max ⁡ D V ( G , D ) = E x ∼ p d a t a [ l o g ( D G ∗ ( x ) ) ] + E z ∼ p z [ l o g ( 1 − D G ∗ ( G ( z ) ) ) ] = E x ∼ p d a t a [ l o g ( D G ∗ ( x ) ) ] + E x ∼ p g [ l o g ( 1 − D G ∗ ( x ) ] = E x ∼ p d a t a [ l o g p d a t a ( x ) p d a t a ( x ) + p g ( x ) ] + E x ∼ p g [ l o g p g ( x ) p d a t a ( x ) + p g ( x ) ] \begin{aligned} C(G) &= \max_DV(G, D) = E_{x∼p_{data}}[log(D_G^(x))]+E_{z∼p_z}[log(1−D_G^(G(z)))]\ &= E_{x∼p_{data}}[log(D_G^(x))]+E_{x∼p_g}[log(1−D_G^(x)] = E_{x∼p_{data}}[log\frac{p_{data}(x)}{p_{data}(x)+ p_g(x)}]+E_{x∼p_g}[log\frac{p_g(x)}{p_{data}(x)+ p_g(x)}]\ \end{aligned}C (G )=D max V (G ,D )=E x ∼p d a t a [l o g (D G ∗(x ))]+E z ∼p z [l o g (1 −D G ∗(G (z )))]=E x ∼p d a t a [l o g (D G ∗(x ))]+E x ∼p g [l o g (1 −D G ∗(x )]=E x ∼p d a t a [l o g p d a t a (x )+p g (x )p d a t a (x )]+E x ∼p g [l o g p d a t a (x )+p g (x )p g (x )]
KL 散度*：KL(p||q) = E x ∼ p log ⁡ p ( x ) q ( x ) E_{x∼p}\log{\frac{p(x)}{q(x)}}E x ∼p lo g q (x )p (x )

证明：
E x ∼ p d a t a [ − log ⁡ 2 ] + E x ∼ p g [ − log ⁡ 2 ] = − log ⁡ 4 ，则 C ( G ) = − log ⁡ ( 4 ) + K L ( p d a t a ∣ ∣ p d a t a + p g 2 ) + K L ( p g ∣ ∣ p d a t a + p g 2 ) = − log ⁡ ( 4 ) + 2 ⋅ J S D ( p d a t a ∣ ∣ p g ) 由于 J S D 非负，且仅当其两个参数相等时才为 0 ，故，当 p d a t a = p g 时 C ( G ) 取最小值为 − log ⁡ ( 4 ) \begin{aligned} &E_{x∼p_{data}}[-\log2] + E_{x∼p_g}[-\log2] = -\log4，则 \ &C(G) = -\log(4) + KL(p_{data} || \frac{p_{data} + p_g}{2}) + KL(p_g || \frac{p_{data} + p_g}{2}) = -\log(4) + 2 \cdot JSD(p_{data} || p_g) \ &由于 JSD 非负，且仅当其两个参数相等时才为 0，故，当 p_{data} = p_g 时 C(G) 取最小值为 -\log(4) \end{aligned}E x ∼p d a t a [−lo g 2 ]+E x ∼p g [−lo g 2 ]=−lo g 4 ，则C (G )=−lo g (4 )+K L (p d a t a ∣∣2 p d a t a +p g )+K L (p g ∣∣2 p d a t a +p g )=−lo g (4 )+2 ⋅J S D (p d a t a ∣∣p g )由于J S D 非负，且仅当其两个参数相等时才为0 ，故，当p d a t a =p g 时C (G )取最小值为−lo g (4 )
命题2：当 G 和 D 有足够容量，且算法 1 中我们允许每一步 D 是可以达到他的最优解。那么如果我们对 G 的优化是去迭代下面这一步骤，则 p_g 会收敛到 p_{data}
E x ∼ p d a t a [ log ⁡ D G ∗ ( x ) ] + E x ∼ p g [ log ⁡ ( 1 − D G ∗ ( x ) ) ] E_{x∼p_{data}}[\log{D_G^(x)}] + E_{x∼p_g}[\log{(1 – D_G^(x))}]E x ∼p d a t a [lo g D G ∗(x )]+E x ∼p g [lo g (1 −D G ∗(x ))]

优缺点：

特点：

相比较传统的模型，GAN 存在 两个不同的网络，而不是单一的网络，并且训练方式采用的是 对抗训练方式
GAN 中 G 的 梯度更新信息来自判别器 D，而不是来自数据样本

优点：

GAN 是一种生成式模型，相比较其他生成模型（玻尔兹曼机和GSNs） 只用到了反向传播，而 不需要复杂的马尔科夫链
相比其他所有模型, GAN 可以产生更加清晰、真实的样本

对 f 期望的求导等价于对 f 自己求导 => 通过误差的反向传递对 GAN 进行求解：lim ⁡ σ → 0 ∇ x E ϵ ∼ N ( 0 , σ 2 I ) f ( x + ϵ ) = ∇ x f ( x ) \lim_{\sigma\rightarrow0}\nabla_xE_{\epsilon∼N(0, \sigma^2I)}f(x+\epsilon) = \nabla_xf(x)lim σ→0 ∇x E ϵ∼N (0 ,σ2 I )f (x +ϵ)=∇x f (x )

GAN 采用的是一种 无监督学习方式训练，可以被广泛用在无监督学习和半监督学习领域。但却用一个 有监督学习的损失函数来做无监督学习，在训练上会高效很多
相比于变分自编码器(VAE)， GANs 没有引入任何决定性偏置( deterministic bias)，变分方法引入决定性偏置。因为他们 优化对数似然的下界，而不是似然度本身，这导致了 VAEs 生成的实例比 GANs 更模糊
相比 VAE， GANs 没有变分下界，如果鉴别器训练良好，那么生成器可以完美的学习到训练样本的分布。换句话说， GANs 是渐进一致的，而 VAE 是有偏差的

😥由于 GAN 的无监督，在生成过程中，G 就会按照自己的意思天马行空生成一些”诡异”的图片，可怕的是 D 还可能给一个很高的分数。这就是 无监督目的性不强所导致的，所以在同年的NIPS大会上，有一篇论文 conditional GAN 就加 入了监督性进去，将可控性增强，表现效果也好很多

缺点：

训练GAN需要达到 纳什均衡，有时候可以用梯度下降法做到，但有时候做不到。我们还没有找到很好的达到纳什均衡的方法，所以训练 GAN 相比 VAE 或者 PixelRNN 是 不稳定的，但我认为在实践中它还是比训练玻尔兹曼机稳定的多
GAN 不适合处理离散形式的数据，比如文本
GAN 存在训练不稳定、梯度消失、模式崩溃的问题（目前已解决）

🙄GAN 的目的是在 高维非凸的参数空间中找到 纳什均衡点，GAN 的纳什均衡点是 一个鞍点，但是 SGD 只会找到局部极小值，因为 SGD 解决的是一个寻找最小值的问题，GAN 是一个博弈问题。同时，SGD容易震荡，容易使GAN训练不稳定。因此，GAN 中的优化器不常用 SGD

补充：Generative Adversarial Net、GAN（生成对抗神经网络）原理解析、简单理解与实验生成对抗网络GAN、blogs from CSDN

Original: https://blog.csdn.net/steven_ysh/article/details/121964544
Author: Lemon_Yam
Title: GAN 简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690676/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python深度学习12——Keras实现注意力机制(self-attention)中文的文本情感分类（详细注释）

Keras封装性比较高，现在的注意力机制都是用pytorch较为多。但是使用函数API也可以实现，Keras处理文本并且转化为词向量也很方便。本文使用了一个外卖评价的数据集，标签…

人工智能 2023年5月27日
00114
数据分析实战项目练习——餐厅订单数据

餐厅订单数据分析本文将从以下几个方面对餐厅订单数据进行可视化展示及剖析，旨在为营业者提供一定的决策和建议。餐厅最受欢迎菜品TOP10 订单ID点菜种类TOP10（消费维度分析）…

人工智能 2023年7月15日
00124
Python与R共舞：在python中用ggplot2、plotnine画散点相关（回归）分析图（附最新高清plotnine、ggplot2速查表（ggplot2-cheatsheet））

| 图源虽然python有许多可视化的包，如matplotlib，seaborn，pandas等。但是笔者还是被ggplot2包绘图所吸引，图层直接简单叠加型设计，用它们可以美…

人工智能 2023年6月17日
0087
opencv图像仿射变换，cv2.warpAffine

目录仿射变换原理介绍 cv2.warpAffine函数介绍代码实例仿射变换原理介绍仿射变换，又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为…

人工智能 2023年7月5日
00144
Four—pytorch学习—基本数据类型/标量/张量/dim值

pytorch学习(1) pytorch的基本数据类型在torch中默认的数据类型是32位浮点型（torch.FloatTensor）可以通过torch.set_default…

人工智能 2023年6月4日
0076
pytoch中class定义神经网络的参数保存与加载

一、定义一个容易识别的网络在正式介绍模型的保存和加载之前，我们首先定义一个基本的网络Net，它只包含一个全连接层： class Net(nn.Module): def __ini…

人工智能 2023年7月13日
0071
Domino内置备份功能妙用

大家好，才是真的好。过去几周我们都在讲Notes客户机的相关功能功能，让大家产生了一点点小疲倦，只要眼睛不瞎，看得出来，阅读量下降得比较厉害。因此决定变一变风格，讲一讲Domi…

人工智能 2023年6月29日
0092
堪称经典，一个非常适合初学者的机器学习实战案例

大家好，今天我给大家介绍一个非常适合新手的机器学习实战案例。这是一个房价预测的案例，来源于 Kaggle 网站，是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完…

人工智能 2023年6月13日
00123
【计算机设计大赛近年获奖信息】数据分析及可视化

【计算机设计大赛近年获奖信息】数据分析及可视化 * – 写在前面 – 数据读取及描述 – 数据预处理 – + 各年数据集格式化 + …

人工智能 2023年7月6日
0073
Python 入门的60个基础练习

python 的语法逻辑完全靠缩进，建议缩进 4 个空格。如果是顶级代码，那么必须顶格书写，哪怕只有一个空格也会有语法错误。下面示例中，满足 if 条件要输出两行内容，这两行内…

人工智能 2023年7月3日
0067
C++调用OpenCV实现图像反转处理

1 前言我们有时会看到这样的一幅图像或图片其对应的原图是上边图片转换过程叫做图像反转，其目的就是增强了图像的暗区中白色或灰色的细节，特别是原图中的阴影黑色区域。原理就是用值…

人工智能 2023年7月18日
0077
论文笔记-DEC (Deep Embedded Clustering)

论文笔记-DEC (Deep Embedded Clustering） * – 知识点1.将聚类的度量参考T-SNE中的t-分布，将聚类的度量转换成一个概率值（软分配，…

人工智能 2023年5月31日
0087
语音识别系统代码

语音识别代码语言：Java / SpeechRecognitionDlg.cpp : implementation file // #include "stdafx.h&…

人工智能 2023年5月27日
0081
torch tensorflow测试GPU配置是否成功以及相关问题

目录 torch * 问题 tensorflow-gpu * 问题参考 torch import torch ”’ 配置成功会输出一个device ID：0 未配置成功会输出F…

人工智能 2023年5月25日
00125
Neo4j 图数据可视化之 Neovis.js 篇

作者：刘洋，Neo4j 高级技术顾问前言我们先来看看，使用Neovis.js可视化Neo4j图数据的效果如何。（以下截图引自Neovis.js在Github的源代码包，地址见…

人工智能 2023年6月1日
00463
目标检测算法——收藏|小目标检测的定义（一）

>>>深度学习Tricks，第一时间送达<<< 目录一、引言二、小目标检测定义（一）基于相对尺度定义（二）基于绝对尺度定义小目标检测一…

人工智能 2023年6月29日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

GAN 简介

原理：

; 算法：

小结：

优缺点：

特点：

优点：

缺点：

大家都在看