生成对抗网络GAN和DCGAN的理解（pytorch+李宏毅老师作业6）

2023年6月6日下午1:59 • 人工智能 • 阅读 112

作者在进行GAN学习中遇到的问题汇总到下方，并进行解读讲解,下面提到的题目是李宏毅老师机器学习课程的作业6（GAN）

一.GAN

二.DCGAN

三.示例代码解读

成功下载并解压，可以删除作业代码中的有关下载和解压的部分

可以打开我最下面放的文件，改变数据地址即可（main函数中的workspace_dir）

   You may replace the workspace directory if you want.

   workspace_dir = '.'
   Training progress bar
   !pip install -q qqdm
   !gdown --id 1IGrTr308mGAaCKotpkkm8wTKlWs9Jq-p --output "{workspace_dir}/crypko_data.zip"

  import random
  import torch
  import numpy as np
  import os
  import glob
  import torch.nn as nn
  import torch.nn.functional as F
  import torchvision
  import torchvision.transforms as transforms
  from torch import optim
  from torch.autograd import Variable
  from torch.utils.data import Dataset, DataLoader
  import matplotlib.pyplot as plt
  from qqdm.notebook import qqdm

如果没有qqdm或者matplotlib则需要pip或者conda下载（qqdm是进度条，在训练过程中可以显示训练进度）

Transfrom：

1.transforms.Compose()：将一系列的transforms有序组合，实现时按照这些方法依次对图像操作。

类似封装函数，依次执行

2.transforms.ToPILImage：将数据转换为PILImage。
3.transforms.Resize：图像变换
4.transforms.ToTensor：转为tensor，并归一化至[0-1]
5.transforms.Normalize：数据归一化处理

mean:各通道的均值
std：各通道的标准差

6.主函数进行数据加载：

  workspace_dir='D://&#x673A;&#x5668;&#x5B66;&#x4E60;//Jupyter//GAN&#x5B66;&#x4E60;//&#x51FD;&#x6570;'
  dataset = get_dataset(os.path.join(workspace_dir, 'faces'))

DCGAN指出，所有的权重都以均值为0，标准差为0.2的正态分布随机初始化。weights_init 函数读取一个已初始化的模型并重新初始化卷积层，转置卷积层，batch normalization 层。这个函数在模型初始化之后使用。

def weights_init(m):
    classname = m.__class__.__name__
    if classname.find('Conv') != -1:
        m.weight.data.normal_(0.0, 0.02)
    elif classname.find('BatchNorm') != -1:
        m.weight.data.normal_(1.0, 0.02)
        m.bias.data.fill_(0)

生成器的目的是将输入向量z映射到真的数据空间。这儿我们的数据为图片，意味着我们需要将输入向量z转换为 3x64x64的RGB图像。实际操作时，我们通过一系列的二维转置卷，每次转置卷积后跟一个二维的batch norm层和一个relu激活层。生成器的输出接入tanh函数以便满足输出范围为[−1,1]。值得一提的是，每个转置卷积后面跟一个 batch norm 层，是DCGAN论文的一个主要贡献。这些网络层有助于训练时的梯度计算。

该函数由反卷积+batch norm+relu构成

      def dconv_bn_relu(in_dim, out_dim):
            return nn.Sequential(
                nn.ConvTranspose2d(in_dim, out_dim, 5, 2,
                                   padding=2, output_padding=1, bias=False),
                nn.BatchNorm2d(out_dim),
                nn.ReLU()
            )

类似dconv_bn_relu，但特殊在l1为网络的第一层，输入输出和后面的l2不同(我其实觉得可以放到一起，但可能分开更加清除一些)

       self.l1 = nn.Sequential(
                  nn.Linear(in_dim, dim * 8 * 4 * 4, bias=False),
                  nn.BatchNorm1d(dim * 8 * 4 * 4),
                  nn.ReLU()
              )

实例化生成器并调用weights_init函数

       self.l2_5 = nn.Sequential(
                  dconv_bn_relu(dim * 8, dim * 4),
                  dconv_bn_relu(dim * 4, dim * 2),
                  dconv_bn_relu(dim * 2, dim),
                  nn.ConvTranspose2d(dim, 3, 5, 2, padding=2, output_padding=1),
                  nn.Tanh()
              )

构建cnn网络结构，tanh函数使输出在[-1,1]之间

      self.apply(weights_init)

整体模型合并

      def forward(self, x):
          y = self.l1(x)
          y = y.view(y.size(0), -1, 4, 4)
          y = self.l2_5(y)
          return y

主函数中生成实例，并输出网络结构

     netG=Generator(100)
      print(netG)

运行后得到网络结构

generator( (l1): Sequential( (0): Linear(in_features=100, out_features=8192, bias=False) (1): BatchNorm1d(8192, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): ReLU() ) (l2_5): Sequential( (0): Sequential( (0): ConvTranspose2d(512, 256, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2), output_padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): ReLU() ) (1): Sequential( (0): ConvTranspose2d(256, 128, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2), output_padding=(1, 1), bias=False) (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): ReLU() ) (2): Sequential( (0): ConvTranspose2d(128, 64, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2), output_padding=(1, 1), bias=False) (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): ReLU() ) (3): ConvTranspose2d(64, 3, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2), output_padding=(1, 1)) (4): Tanh() ) ) <pre><code> 判别器的输入为3 *64 *64，输出为概率（分数），依次通过卷积层，BN层，LeakyReLU层，最后通过sigmoid函数输出得分 </code></pre> from torch import nn from 函数.weights_inition import weights_init class Discriminator(nn.Module): """ Input shape: (N, 3, 64, 64) Output shape: (N, ) """ <pre><code>def __init__(self, in_dim, dim=64): super(Discriminator, self).__init__() def conv_bn_lrelu(in_dim, out_dim): return nn.Sequential( nn.Conv2d(in_dim, out_dim, 5, 2, 2), nn.BatchNorm2d(out_dim), nn.LeakyReLU(0.2), ) """ Medium: Remove the last sigmoid layer for WGAN. """ self.ls = nn.Sequential( nn.Conv2d(in_dim, dim, 5, 2, 2), nn.LeakyReLU(0.2), conv_bn_lrelu(dim, dim * 2), conv_bn_lrelu(dim * 2, dim * 4), conv_bn_lrelu(dim * 4, dim * 8), nn.Conv2d(dim * 8, 1, 4), nn.Sigmoid(), ) self.apply(weights_init) def forward(self, x): y = self.ls(x) y = y.view(-1) return y </code></pre> <pre><code> > 类似生成器，具体框架不再分开说明生成实例，观察网络结构 </code></pre> Discriminator( (ls): Sequential( (0): Conv2d(3, 64, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2)) (1): LeakyReLU(negative_slope=0.2) (2): Sequential( (0): Conv2d(64, 128, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2)) (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): LeakyReLU(negative_slope=0.2) ) (3): Sequential( (0): Conv2d(128, 256, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2)) (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): LeakyReLU(negative_slope=0.2) ) (4): Sequential( (0): Conv2d(256, 512, kernel_size=(5, 5), stride=(2, 2), padding=(2, 2)) (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True) (2): LeakyReLU(negative_slope=0.2) ) (5): Conv2d(512, 1, kernel_size=(4, 4), stride=(1, 1)) (6): Sigmoid() ) ) <pre><code> </code></pre> G = Generator(in_dim=z_dim).to(device) D = Discriminator(3).to(device) G.train() D.train() # Loss criterion = nn.BCELoss() # Optimizer opt_D = torch.optim.Adam(D.parameters(), lr=lr, betas=(0.5, 0.999)) opt_G = torch.optim.Adam(G.parameters(), lr=lr, betas=(0.5, 0.999)) <pre><code> * in_dim=z_dim=100,z的分布（高斯分布）深度为100 * 因为input的是图片，3channels，所以Discriminator(3) * 如果模型中有BN层，需要在训练时添加model.train()，在测试时添加model.eval()。其中model.train()是保证BN层用每一批数据的均值和方差，而model.eval()是保证BN用全部训练数据的均值和方差。 * 损失函数使用二元交叉熵损失(BCELoss) * 这里使用Adam优化器更新参数[Adam+pytorch](https://blog.csdn.net/weixin_39228381/article/details/108548413)，学习率设置为0.0002 Betal=0.5。 </code></pre> dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, num_workers=2) <pre><code> * z为随机生成64 *100的高斯分布数据（均值为0，方差为1）也叫噪声。 z为生成器的输入。 * z为随机生成64*100的高斯分布数据（均值为0，方差为1）也叫噪声。 z为生成器的输入。 </code></pre> <pre><code> z = Variable(torch.randn(bs, z_dim)).to(device) </code></pre> <pre><code> * f_imgs大小为 64 *3 *64 *64(生成64张假图片) * 将z直接传入G (),可以直接调用forward（）函数进行操作，参考[forward](https://blog.csdn.net/HJC256ZY/article/details/106462417)。 * 下面展示forward（）函数的流程 </code></pre> <pre><code> r_imgs = Variable(imgs).to(device) f_imgs = G(z) </code></pre> <pre><code> * 进行标签定义，真实图片的label为1，生成的图片的label为0。 </code></pre> <pre><code> r_label = torch.ones((bs)).to(device) f_label = torch.zeros((bs)).to(device) </code></pre> <pre><code> * 把两种图片放入判别器，将r_imgs设置为detach(),意为参数不再更新（很好理解，因为图片的数据肯定不可以改变，只能改变网络的参数，所以就锁定了图片数据）。r_logit表示真实图片得分(越高越好)，f_logit表示假图片得分（越低越好）。 </code></pre> <pre><code> r_logit = D(r_imgs.detach()) f_logit = D(f_imgs.detach()) </code></pre> <pre><code> * 计算损失，就是将两种损失加起来除以二。 </code></pre> <pre><code> r_loss = criterion(r_logit, r_label) f_loss = criterion(f_logit, f_label) loss_D = (r_loss + f_loss) / 2 </code></pre> <pre><code> * module.zero_grad(），每一个batch的训练将参数的梯度清零。 * 对loss进行反向传播算法，.backward（）可以计算所有与loss_D有关的参数的梯度，参考[backward](https://zhuanlan.zhihu.com/p/27808095)。 * optimizer.step()，进行参数更新(Adam)。 </code></pre> <pre><code> D.zero_grad() loss_D.backward() opt_D.step() </code></pre> <pre><code> * z为随机生成64*100的高斯分布数据（均值为0，方差为1）也叫噪声。 z为生成器的输入。 </code></pre> z = Variable(torch.randn(bs, z_dim)).to(device) <pre><code> * 生成假图片，并计算得分（越高越好）。 * 更新参数 </code></pre> G.zero_grad() loss_G.backward() opt_G.step() <pre><code> * 生成最后的结果（测试图片），每一个epoch生成一张图片。 </code></pre> <pre><code> G.eval() f_imgs_sample = (G(z_sample).data + 1) / 2.0 filename = os.path.join(log_dir, f'Epoch_{epoch + 1:03d}.jpg') torchvision.utils.save_image(f_imgs_sample, filename, nrow=10) print(f' | Save some samples to {filename}.') # Show generated images in the jupyter notebook. grid_img = torchvision.utils.make_grid(f_imgs_sample.cpu(), nrow=10) plt.figure(figsize=(10, 10)) plt.imshow(grid_img.permute(1, 2, 0)) plt.show() G.train() if (e + 1) % 5 == 0 or e == 0: # Save the checkpoints. torch.save(G.state_dict(), os.path.join(ckpt_dir, 'G.pth')) torch.save(D.state_dict(), os.path.join(ckpt_dir, 'D.pth')) </code></pre>

下图分别是我设置epoch为5，bitch_size为10和64生成的测试图片
bitch_size=10

bitch_size=64

观察图片会有一些问题，比如面部不全，眼睛颜色不对或者人脸模糊等问题，转换GAN类型或者增加数据集等可能使结果更好。

李宏毅老师的作业文件是.ipynb文件，我把函数分开写进了PyCharm中，在使用时需要更改各个函数中
import的文件名，还有数据的地址（在main函数中）改为自己的地址
提取码:dkdd

Original: https://www.cnblogs.com/lvzhiyi/p/15754977.html
Author: 富士山上
Title: 生成对抗网络GAN和DCGAN的理解（pytorch+李宏毅老师作业6）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576560/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一元线性模型的中位数回归

一元线性模型的中位数回归一、算法目的二、算法推导三、实际案例与python编程计算 * 3.1中位数回归方程的计算 3.2数据可视化 3.3回归参数检验四、参考文献一、算…

人工智能 2023年6月18日
0073
新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择，决定从杭州”搬迁”到了上海，一切安顿好之后，终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦，希望对同样有跳槽需求…

人工智能 2023年5月28日
00111
第四十四章在CSP应用程序中本地化文本 – 显示本地化字符串的其他选项

在运行时显示本地化字符串的最简单方法是使用本章前面介绍的 $$$Text宏之一。本主题解释了在运行时从消息字典中检索消息文本的其他方法。如果消息文本包含参数(%1， %2， %3…

人工智能 2023年6月27日
0071
Python进行.tif格式数据波段组合；多波段tif数据波段分离

Python进行.tif格式数据波段组合;多波段tif数据波段分离 .tif格式数据波段组合多波段.tif数据波段分离阔别已久，我又来了；啊啊啊…… 读…

人工智能 2023年6月18日
0066
sklearn聚类算法实现

sklearn聚类算法实现主要通过调用python中sklearn库中的函数来实现聚类算法，主要包括：K-MEANS、近邻传播（AffinityPropagation）、均值偏移…

人工智能 2023年5月31日
0072
这可能是神经网络 LeNet-5 最详细的解释了！

大家好，我是红色石头！说起深度学习目标检测算法，就不得不提 LeNet- 5 网络。LeNet-5由LeCun等人提出于1998年提出，是一种用于手写体字符识别的非常高效的卷积神…

人工智能 2023年5月26日
0089
海思SDK学习（7）海思媒体处理软件平台MMP(6)视频编码VENC

视频编码 1、概述 VENC模块，即视频编码模块。本模块支持多路实时编码，且每路编码独立，编码协议和编码profile 可以不同。本模块支持视频编码同时，调度Region 模块对编…

人工智能 2023年6月20日
00345
学会Python开发的第一步：写一个桌面小程序

前言嗨喽，大家好呀~这里是爱看美女的茜茜呐又到了学Python时刻~ 当使用桌面应用程序的时候，有没有那么一瞬间，想学习一下桌面应用程序开发？建议此次课程大家稍作了解不要浪…

人工智能 2023年7月29日
00104
巨潮资讯分析

巨潮资讯分析（1）爬取巨潮资讯万科A网站下载pdf（2）从pdf中筛选指定字段（3）利用python进行可视化分析前言博主最近接的一个单子的需求需要是爬取巨潮资讯中指定公司…

人工智能 2023年6月11日
0067
什么是图像质量？

实现高质量的成像是所有相机制造商的目标。但是在科学成像领域，会有一些不同的指标来衡量图像的成像质量。一、光的采集 1、量子效率（QE） QE衡量了成像设备将入射的光子转换为电子的…

人工智能 2023年5月28日
0060
OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域

OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域一、改变图像大小 * 1、获取图像宽、高、通道数 2、resize函数 3、案例二…

人工智能 2023年7月28日
0078
改进YOLOv5系列：6.修改Soft-NMS,Soft-CIoUNMS,Soft-SIoUNMS,Soft-DIoUNMS,Soft-EIoUNMS,Soft-GIoUNMS…

💡基于 YOLOv5 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🌟本项目包含大量的改进方式,降低改进难度,改进点包含 Backbone、 Neck、 Head、 …

人工智能 2023年7月25日
0080
Tensorflow的快速安装（张量图例）

作为目前最流行的深度学习框架，其强大功能无需赘言，现在我们来快速安装它，对于安装过MXNet框架的来说非常简单，一般本人喜欢从镜像站点安装，不然对于站点在国外的很容易出现超时的情况…

人工智能 2023年5月23日
0092
Pandas 学习总结

目录一、数据结构 1、创建series 2、获取series以及切片 3、Series的基本属性 4、读取数据 5、DataFrame的基本属性 6、创建DataFrame 7、…

人工智能 2023年7月7日
0058
从聚类的角度重新审视 Mask Transformer

全景分割是一个计算机视觉问题，是许多现实世界AI应用的核心任务。由于其复杂性，以前的工作通常将全景分割分为语义分割（为图像中的每个像素分配语义标签，例如”人&#8221…

人工智能 2023年7月17日
0046
动态时间规整算法: 从DTW到FastDTW

目录动态时间规整算法: 从DTW到FastDTW * 总结：简介[^1] DTW[^1] FastDTW：使用多级粗化的方法[^1] 结果动态时间规整算法: 从DTW到Fas…

人工智能 2023年7月28日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生成对抗网络GAN和DCGAN的理解（pytorch+李宏毅老师作业6）

一.GAN

二.DCGAN

三.示例代码解读

大家都在看