GANs系列：CGAN(条件GAN）原理简介以及项目代码实现

2023年5月26日上午3:20 • 人工智能 • 阅读 96

一、原始GAN的缺点

生成的图像是随机的，不可预测的，无法控制网络输出特定的图片，生成目标不明确，可控性不强。针对原始GAN不能生成具有特定属性的图片的问题， Mehdi Mirza等人提出了cGAN，其核心在于将属性信息y 融入生成器G和判别器D中，属性y可以是任何标签信息，例如图像的类别、人脸图像的面部表情等。

二、CGAN的基本原理

cGAN的中心思想是希望可以控制 GAN 生成的图片，而不是单纯的随机生成图片。具体来说，Conditional GAN 在生成器和判别器的输入中增加了额外的条件信息，生成器生成的图片只有足够真实且与条件相符，才能够通过判别器。

实际上 , 在无条件约束的生成模型中 , 没法控制数据生成的模式。然而，通过额外的信息对模型进行约束，有可能指导数据生成的过程。条件约束可以是类标签 , 可以是图像修补的部分数据, 甚至是来自不同模态的数据

cGAN将无监督学习转为有监督学习使得网络可以更好地在我们的掌控下进行学习！

从公式看，cgan相当于在原始GAN的基础上对生成器部分和判别器部分都加了一个条件

三、CGAN模型

如果将上图绿色部分的y去掉，就是GAN的原理图。

四、CGAN结构

为了实现条件GAN的目的，生成网络和判别网络的原理和训练方式均要有所改变。

模型部分，在判别器和生成器中都添加了额外信息 y，y 可以是类别标签或者是其他类型的数据，可以将 y 作为一个额外的输入层丢入判别器和生成器。

在生成器中，作者将输入噪声 z 和 y 连在一起隐含表示，带条件约束这个简单直接的改进被证明非常有效,并广泛用于后续的相关工作中。论文是在MNIST数据集上以类别标签为条件变量，生成指定类别的图像。作者还探索了CGAN 在用于图像自动标注的多模态学习上的应用，在MIR Flickr25000数据集上，以图像特征为条件变量，生成该图像的tag的词向量。

五、CGAN缺陷

cGAN生成的图像虽有很多缺陷，譬如图像边缘模糊，生成的图像分辨率太低等，但是它为后面的pix2pixGAN和CycleGAN开拓了道路，这两个模型转换图像风格时对属性特征的处理方法均受cGAN启发。

六、代码实现，生成指定手写数字

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt
import torchvision
from torchvision import transforms
from torch.utils import data
import os
import glob
from PIL import Image

独热编码
输入x代表默认的torchvision返回的类比值，class_count类别值为10
def one_hot(x, class_count=10):
    return torch.eye(class_count)[x, :]  # 切片选取，第一维选取第x个，第二维全要

transform =transforms.Compose([transforms.ToTensor(),
                               transforms.Normalize(0.5, 0.5)])

dataset = torchvision.datasets.MNIST('data',
                                     train=True,
                                     transform=transform,
                                     target_transform=one_hot,
                                     download=False)
dataloader = data.DataLoader(dataset, batch_size=64, shuffle=True)

定义生成器
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()
        self.linear1 = nn.Linear(10, 128 * 7 * 7)
        self.bn1 = nn.BatchNorm1d(128 * 7 * 7)
        self.linear2 = nn.Linear(100, 128 * 7 * 7)
        self.bn2 = nn.BatchNorm1d(128 * 7 * 7)
        self.deconv1 = nn.ConvTranspose2d(256, 128,
                                          kernel_size=(3, 3),
                                          padding=1)
        self.bn3 = nn.BatchNorm2d(128)
        self.deconv2 = nn.ConvTranspose2d(128, 64,
                                          kernel_size=(4, 4),
                                          stride=2,
                                          padding=1)
        self.bn4 = nn.BatchNorm2d(64)
        self.deconv3 = nn.ConvTranspose2d(64, 1,
                                          kernel_size=(4, 4),
                                          stride=2,
                                          padding=1)

    def forward(self, x1, x2):
        x1 = F.relu(self.linear1(x1))
        x1 = self.bn1(x1)
        x1 = x1.view(-1, 128, 7, 7)
        x2 = F.relu(self.linear2(x2))
        x2 = self.bn2(x2)
        x2 = x2.view(-1, 128, 7, 7)
        x = torch.cat([x1, x2], axis=1)
        x = F.relu(self.deconv1(x))
        x = self.bn3(x)
        x = F.relu(self.deconv2(x))
        x = self.bn4(x)
        x = torch.tanh(self.deconv3(x))
        return x

定义判别器
input:1，28，28的图片以及长度为10的condition
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        self.linear = nn.Linear(10, 1*28*28)
        self.conv1 = nn.Conv2d(2, 64, kernel_size=3, stride=2)
        self.conv2 = nn.Conv2d(64, 128, kernel_size=3, stride=2)
        self.bn = nn.BatchNorm2d(128)
        self.fc = nn.Linear(128*6*6, 1) # 输出一个概率值

    def forward(self, x1, x2):
        x1 =F.leaky_relu(self.linear(x1))
        x1 = x1.view(-1, 1, 28, 28)
        x = torch.cat([x1, x2], axis=1)
        x = F.dropout2d(F.leaky_relu(self.conv1(x)))
        x = F.dropout2d(F.leaky_relu(self.conv2(x)))
        x = self.bn(x)
        x = x.view(-1, 128*6*6)
        x = torch.sigmoid(self.fc(x))
        return x

初始化模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
gen = Generator().to(device)
dis = Discriminator().to(device)

损失计算函数
loss_function = torch.nn.BCELoss()

定义优化器
d_optim = torch.optim.Adam(dis.parameters(), lr=1e-5)
g_optim = torch.optim.Adam(gen.parameters(), lr=1e-4)

定义可视化函数
def generate_and_save_images(model, epoch, label_input, noise_input):
    predictions = np.squeeze(model(label_input, noise_input).cpu().numpy())
    fig = plt.figure(figsize=(4, 4))
    for i in range(predictions.shape[0]):
        plt.subplot(4, 4, i + 1)
        plt.imshow((predictions[i] + 1) / 2, cmap='gray')
        plt.axis("off")
    plt.savefig('D:/practice/CGAN/img/image_at_epoch_{:04d}.png'.format(epoch))
    plt.show()
noise_seed = torch.randn(16, 100, device=device)

label_seed = torch.randint(0, 10, size=(16,))
label_seed_onehot = one_hot(label_seed).to(device)
print(label_seed)
print(label_seed_onehot)

开始训练
D_loss = []
G_loss = []
训练循环
for epoch in range(150):
    d_epoch_loss = 0
    g_epoch_loss = 0
    count = len(dataloader.dataset)
    # 对全部的数据集做一次迭代
    for step, (img, label) in enumerate(dataloader):
        img = img.to(device)
        label = label.to(device)
        size = img.shape[0]
        random_noise = torch.randn(size, 100, device=device)

        d_optim.zero_grad()

        real_output = dis(label, img)
        d_real_loss = loss_function(real_output,
                                    torch.ones_like(real_output, device=device)
                                    )
        d_real_loss.backward() #求解梯度

        # 得到判别器在生成图像上的损失
        gen_img = gen(label,random_noise)
        fake_output = dis(label, gen_img.detach())  # 判别器输入生成的图片，f_o是对生成图片的预测结果
        d_fake_loss = loss_function(fake_output,
                                    torch.zeros_like(fake_output, device=device))
        d_fake_loss.backward()

        d_loss = d_real_loss + d_fake_loss
        d_optim.step()  # 优化

        # 得到生成器的损失
        g_optim.zero_grad()
        fake_output = dis(label, gen_img)
        g_loss = loss_function(fake_output,
                               torch.ones_like(fake_output, device=device))
        g_loss.backward()
        g_optim.step()

        with torch.no_grad():
            d_epoch_loss += d_loss.item()
            g_epoch_loss += g_loss.item()
    with torch.no_grad():
        d_epoch_loss /= count
        g_epoch_loss /= count
        D_loss.append(d_epoch_loss)
        G_loss.append(g_epoch_loss)
        if epoch % 10 == 0:
            print('Epoch:', epoch)
            generate_and_save_images(gen, epoch, label_seed_onehot, noise_seed)

plt.plot(D_loss, label='D_loss')
plt.plot(G_loss, label='G_loss')
plt.legend()
plt.show()

具体实战代码解读，参考：GAN实战之Pytorch 使用CGAN生成指定MNIST手写数字

Original: https://blog.csdn.net/m0_62128864/article/details/123972758
Author: 码农男孩
Title: GANs系列：CGAN(条件GAN）原理简介以及项目代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/517882/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于tensorflow迁移学习那些事

关于tensorflow迁移学习那些事首先在看本内容之前，推荐你去看tensorflow官网的迁移学习和微调，那个讲的更清楚，也更加详细，网址如下所示。但是官网里面的模型加载确实…

人工智能 2023年5月23日
0065
Python深度学习04——Keras自编码器(AE)实现

参考书目：陈允杰.TensorFlow与Keras——Python深度学习应用实战.北京:中国水利水电出版社,2021 本系列基本不讲数学原理，只从代码角度去让读者们利用最简洁的P…

人工智能 2023年6月25日
0085
分布式训练(二)——分布式策略

目录 1.为什么需要分布式 2.tensorflow 支持的分布式策略 2.1 MirroredStrategy 2.2 CentralStorageStrategy 2.3 Mu…

人工智能 2023年5月23日
0063
人工智能导论笔记（持续更新）

文章目录前言人工智能概览 * 人工智能的概念 – 人工智能能做什么强人工智能与弱人工智能涉及领域人工智能方法论 – 模拟层面三大理念 + 符号主…

人工智能 2023年6月24日
0076
ECCV 2022 | 港中文MMLab：基于Transformer的光流

©PaperWeekly 原创 · 作者 |Zhaoyang Huang 单位 | 香港中文大学MMLab 研究方向 |视觉关联性学习 Transformer 今年在图像领域展现出…

人工智能 2023年6月16日
0070
详解：yolov5中推理时置信度，设置的conf和iou_thres具体含义

一、模型输出解析：设输出图片大小为1280，768，类别个数为2，则yolov5输出的三种特征图，其维度分别为：[1,3,96，160，7]，[1,3,48,80,7]，[1,3…

人工智能 2023年6月23日
00119
（Python数字图像处理）彩色图像处理—色调和彩色校正以及直方图均衡化

文章目录一、色调和彩色校正二、色调校正及彩色平衡三、彩色直方图均衡化 -基于Python+OpenCV，实验环境：pycharm+anaconda，参考《数字图像处理》冈萨雷…

人工智能 2023年6月19日
0071
专题六聚类算法KMeans

一、概述 1、无监督学习：训练时只需要一个特征矩阵x，不需要标签y，例如PCA 2、聚类（无监督分类）VS 分类1）在已经知晓的类别上，给未知的样本标上标签（分类）；在完全不知道标…

人工智能 2023年6月3日
0050
6. 手写数字图片数据集MNIST

MNIST数据集（http://yann.lecun.com/exdb/mnist/）手写数字图片数据集，存在60000个训练样本，10000个测试样本。每个样本为一个28X28…

人工智能 2023年6月16日
0065
[python]图像处理pillow库学习记录，查看图像信息、格式转换、图像通道分离与合并、图像增强等等······

一.前言： pillow库是python中经常使用的图像处理库，其中包含了很多的图像处理方法。RGB图像是我们经常使用的图像，常常需要对RGB图像进行处理，或者获取图像的一些基本信…

人工智能 2023年6月20日
0077
Pandas 多层级索引 Python 数据处理案例指南

今天我们来聊一下 Pandas当中的数据集中带有多重索引的数据分析实战通常我们接触比较多的是单层索引，而多级索引也就意味着数据集当中的行索引有多个层级，具体的如下图所示 ; 导入…

人工智能 2023年6月11日
0069
python新建一个目录

源码部分 import os 创建目录 def mkdir(path): isExists = os.path.exists(path) if not isExists: os.m…

人工智能 2023年6月4日
0080
支持向量机（SVM）

文章目录 * – + 1.SVM初识 + 2.向量内积-回顾 + 3.SVM分类 + 4.转化为凸优化问题 + 5.非线性情况 + * 非线性情况-映射问题 * 非线性…

人工智能 2023年7月27日
0051
Anacoda/Pycharm 安装及Pytorch环境配置

建议先安装Anaconda,再安装Pycharm,环境配置以Pytorch为例，步骤如下：一、Anaconda安装下载地址传送门：官网首页：Anaconda | The Wo…

人工智能 2023年7月21日
0049
Python计算机视觉图像处理基础：直方图、直方图均衡化、高斯滤波

文章目录实验目的一、灰度变换 * 1.1 灰度图的定义 1.2 彩色图像转灰度图像的方法 1.3 采用convert()方法转换 1.4 代码展示 1.5 结果展示二、图像轮…

人工智能 2023年6月20日
0078
基于不同路面附着系数的全速 ACC 控制算法研究

参考文献：自适应巡航系统安全距离控制算法设计 [55] Zifei Nie, Hooman Farzaneh. Adaptive Cruise Control for Eco-D…

人工智能 2023年6月10日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30