AttnGAN代码复现（详细步骤+避坑指南）文本生成图像

2023年6月16日下午1:24 • 人工智能 • 阅读 99

AttnGAN代码复现（详细步骤+避坑指南）

一、前言
二、下载代码和数据集
三、搭建环境
四、预训练DAMSM 模型(也可以跳过这步骤，直接下载预训练模型)
五、运行
*
1、预训练模型的下载（选做）
2、运行
六、资源下载

一、前言

这篇文章是AttnGAN: Fine-Grained TexttoImage Generation with Attention（带有注意的生成对抗网络细化文本到图像生成）的代码复现博文，我边做边写，展示详细步骤、踩坑和debug的过程。

论文地址： https://arxiv.org/pdf/1711.10485.pdf

论文阅读笔记：Text to image论文精读 AttnGAN

二、下载代码和数据集

（下载链接如果打不开，翻到文末）

1、首先在github上下载模型代码：https://github.com/taoxugit/AttnGAN（此为Python2.7版本）
🌟🌟🌟 最近在github上找到了AttnGAN的python3版本，可以有效避免很多语法错误，推荐下载（22年2月28日更新）🌟🌟🌟：
https://github.com/davidstap/AttnGAN

2、下载为鸟类预处理的元数据：https://drive.google.com/open?id=1O_LtUP9sch09QH3s_EBAgLEctBQ5JBSJ
并将其保存到data/

3、下载鸟类图像数据：http://www.vision.caltech.edu/visipedia/CUB-200-2011.html 将它们提取到data/birds/。

🌟🌟🌟 若该链接打不开可下载这个，内容是一样的（22年2月28日更新）🌟🌟🌟：https://drive.google.com/file/d/1hbzc_P1FuxMkcabkgn9ZKinBwW683j45/view

4、下载完后目录如下：

; 三、搭建环境

1、首先配置好解释器

2、然后安装环境

pip install python-dateutil
pip install easydict
pip install pandas
pip install torchfile nltk
pip install scikit-image

可能需要额外安装的环境，根据提示进行补充：

pip install torchvision

四、预训练DAMSM 模型(也可以跳过这步骤，直接下载预训练模型)

python pretrain_DAMSM.py –cfg cfg/DAMSM/bird.yml –gpu 0

可能出现的问题1：’EasyDict’ object has no attribute ‘iteritems’
问题原因：Python3中:iteritems变为items
解决方案：根据提示将iteritems改为items

可能出现的问题2： ‘EasyDict’ object has no attribute ‘has_key’
问题原因：Python3以后删除了has_key()方法
解决方案：将 b.has_key(k):改为if k in b

可能出现的问题3： module ‘torch._C’ has no attribute ‘_cuda_setDevice’
问题原因：环境问题，环境没配好
解决方案：卸载原环境，重新配置pytorch

可能出现的问题4：name ‘xrange’ is not defined
问题原因：xrange是python2的用法，在python3中range与xrange已经合并为range了。
解决方案：把用到的程序里的xrange( )函数全部换为range( )

可能出现的问题5： ‘ascii’ codec can’t decode byte 0x80 in position 0: ordinal not in range(128)
问题原因：读取文件时的解码问题
解决方案：更改为：
class_id = pickle.load(f, encoding=’bytes’)

可能出现的问题6：IndexError: list index out of range
问题原因：代码问题，数组超限

将 if i < (cfg.TREE.BRANCH_NUM – 1):改为
if i < (cfg.TREE.BRANCH_NUM – 2):
可能出现的问题7：IndexError: invalid index of a 0-dim tensor. Use tensor.item() to convert a 0-dim tensor to a Python number
问题原因：在pytorch高版本用item()
解决方案：将【0】改为.item()

可能出现的问题8：OSError: cannot open resource
问题原因：ImageFont.truetype(‘Pillow/Tests/fonts/FreeMono.ttf’, 50)，环境里没有FreeMono这个字体
解决方案：更换字体，更改为：
fnt = ImageFont.truetype(‘Pillow/Tests/fonts/arial.ttf’, 40)

; 五、运行

1、预训练模型的下载（选做）

如果做了第四步，可以直接进入下一小节

如果没有做第四步，首先下载别人已经训练好的预训练模型：
https://drive.google.com/open?id=1GNUKjVeyWYBJ8hEU-yrfYQpDOkxEyP3V将其保存到DAMSMencoders/

下载https://drive.google.com/open?id=1lqNG75suOuR_8gjoEPYNp8VyT_ufPPig并将其保存到models/

2、运行

训练GAN：python main.py –cfg cfg/bird_attn2.yml –gpu 1
运行：python main.py –cfg cfg/eval_bird.yml –gpu 1
以从”./data/birds/example_filenames.txt”中列出的文件中的标题生成示例。结果保存到DAMSMencoders/.

可能出现的问题1：’str’ object has no attribute ‘decode
问题原因：Python2和Python3在字符串编码上的区别。
解决方案：.encode(‘utf-8’). decode(‘utf-8’) ) #先编码再解码：
filenames = f.read().encode(‘utf8’).decode(‘utf8’).split(‘\n’)
sentences = f.read().encode(‘utf8’).decode(‘utf8’).split(‘\n’)

可能出现的问题2：FileNotFoundError: [Errno 2] No such file or directory:’…/data/birds/text/180.Wilson_Warbler/Wilson_Warbler_0007_175618.txt’
问题原因：该文件没找到，路径问题
解决方案：更改为正确的路径，如果text是处于压缩状态要解压。

可能出现的问题3：RuntimeError: CUDA out of memory. Tried to allocate 40.00 MiB (GPU 0; 4.00 GiB total capacity; 2.86 GiB already allocated; 33.84 MiB free; 20.86 MiB cached)
问题原因：GPU性能不足（但依然还是能跑出结果，结果在AttnGAN-master\models\bird_AttnGAN2\example_captions中）
解决方案：花钱升级硬件或者放到服务器

六、实验结果
可以在这里输入相应测试的文本

然后在这里就可以看到生成的各个阶段的图像和注意力机制的应用。

在这里可以选择采样数据集

然后在这里可以看到采样生成的图像。

部分实验结果如下：

1.this bird is yellow with white and has a very long beak

2.this bird has wings that are blue and has a red belly

3.this bird is yellow with white on its head and has a very short beak

; 六、资源下载

打不开网址的可以点击：https://download.csdn.net/download/air__Heaven/85067478
该文件除了需要下载配置好图像数据集（二-3），其他都是配置好了的

Original: https://blog.csdn.net/air__Heaven/article/details/122458499
Author: 中杯可乐多加冰
Title: AttnGAN代码复现（详细步骤+避坑指南）文本生成图像

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624376/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas删除最后一列_Python pandas从列中删除最后一个字符串/符号

我有一个很大的csv，列中包含以0开头、以a结尾的数字。在看起来。。在TC_NUM 0101.0001. 0101.0002. 0101.0003. 我希望它看起来像。。在 ^{…

人工智能 2023年7月8日
0070
CVPR2022点云语义分割：Stratified Transformer for 3D Point Cloud Segmentation

每日论文–CVPR2022 Stratified Transformer for 3D Point Cloud Segmentation * SSA: Stratifi…

人工智能 2023年6月24日
00106
如何利用 Python 批量合并 Excel？

大家好，今天分享一个利用 Pandas进行数据分析的小技巧，也是之前有粉丝在后台进行提问的，即如何将多个 pandas.dataframe保存到同一个 Excel中。喜欢记得收藏、…

人工智能 2023年7月15日
0069
图像处理与机器学习——图像增强（空间域变换——空间域滤波）

本文内容空域滤波的由来低通滤波器（均值、高斯低通滤波器）（平滑图像）中值滤波器高通滤波器（锐化图像，几个常见算子的由来）空间域滤波原有的灰度级转换函数，例如线性变换函数…

人工智能 2023年6月22日
0078
ubuntu服务器安装cv2

@TOCubuntu服务器安装cv2 opencv_python: import cv2 报错多种安装调试后仍显示ImportError: libXext.so.6: cannot…

人工智能 2023年7月19日
0097
Opencv实战——图像拼接

文章目录前言实现方法实现代码 * 直接拼接加权处理总结前言图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度…

人工智能 2023年7月30日
0056
Opencv 图像处理-Contours函数提取轮廓及感兴趣区域ROI的必用且实用操作技巧-(涵盖Contours的一切使用基础，附代码段)

1.Contours函数轮廓点大小排序当使用findcontours后一般返回是contours, hierarchy两个，contours内包含的是根据设定模式所返回的轮廓。…

人工智能 2023年7月18日
0093
机器学习笔记 – 什么是高斯混合模型(GMM)？

1、高斯混合模型概述高斯混合模型 (GMM) 是一种机器学习算法。它们用于根据概率分布将数据分类为不同的类别。高斯混合模型可用于许多不同的领域，包括金融、营销等等！这里要对高斯混…

人工智能 2023年7月29日
0050
【计算机视觉】图像分割与特征提取——基于Roberts、Prewitt、Sobel算子的图像分割实验

个人简介： 📦个人主页：赵四司机🏆学习方向：JAVA后端开发⏰往期文章：SpringBoot项目整合微信支付🔔博主推荐网站：牛客网刷题|面试|找工作神器📣种一棵树最好的时间是十年…

人工智能 2023年7月29日
0072
通过多层感知机实现MNIST手写体识别

1.问题描述通过MNIST内含有60000个数据进行训练的图像（train），图片为28*28的像素矩阵，并定义一个三层的多层感知机。经过训练，最终可以对测试的数字图像又较为准确…

人工智能 2023年6月25日
0061
[Pytorch系列-30]：神经网络基础 – torch.nn库五大基本功能：nn.Parameter、nn.Linear、nn.functioinal、nn.Module、nn.Sequentia

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月17日
0073
重磅|“把握全局，见微知著”，知道创宇发布网空测绘知识图谱

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0095
过滤器在数据处理过程中引入了哪些额外的计算和存储开销？如何在不影响算法性能的情况下优化过滤器的效率和资源消耗

问题描述在数据处理过程中使用过滤器会引入额外的计算和存储开销。我们需要解决如何在不影响算法性能的情况下优化过滤器的效率和资源消耗这个问题。介绍过滤器在数据处理中用于从数据集中…

人工智能 2024年1月5日
0058
【OpenCV-Python】：查找物体轮廓+计算轮廓面积、长度、重心

✨博客主页：米开朗琪罗~🎈✨博主爱好：羽毛球🏸✨年轻人要：Living for the moment（活在当下）！💪🏆推荐专栏：【图像处理】【千锤百炼Python】【深度学习】【排…

人工智能 2023年7月19日
0064
Qt-OpenCV开发环境搭建（史上最详细）

文章目录一、环境介绍二、OpenCV下载三、OpenCV结构介绍四、编译OpenCV 五、配置Qt工程附、编译opencv-contrib * 一、下载opencv-co…

人工智能 2023年7月19日
0083
技术干货 | 一文弄懂差分隐私原理！

随着互联网的迅猛发展，网络早已融进人们日常生活的方方面面，我们的个人隐私在互联网时代几乎已经不是秘密。在数据时代，如何保护自己的隐私呢？差分隐私又是什么？小编用一篇文章带领大家了解…

人工智能 2023年6月23日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

AttnGAN代码复现（详细步骤+避坑指南）文本生成图像

AttnGAN代码复现（详细步骤+避坑指南）

1、预训练模型的下载（选做）

2、运行

大家都在看