要点初见：AI绘图工具的部署资源、攻略整理（上篇）

2023年6月25日下午5:56 • 人工智能 • 阅读 94

开门见山：

推荐使用 Stable Diffusion，其在2022年8月23日完全开源了自己的V1版模型，如今AI绘图已经是只要有GPU资源即可免费、快速实现的事了！未来聊天表情包将全由AI自动生成（包括动图），动画制作只需要关键原画其余都由AI自动补全，AI计算绘画师也将成为炙手可热的新职业。

附上开源链接：

项目链接：

GitHub – CompVis/stable-diffusion: A latent text-to-image diffusion model

模型链接：

https://huggingface.co/CompVis/

建议采用其中的stable-diffusion-v1-4模型。详细操作见下文资源指路。

一、概述

遥记得2019年时曾做了一个1000+张图的轮式机器人数据集，用当时火热的WGAN（生成对抗网络GAN的一种模型）在挂载2张1080Ti的服务器上进行了一段时间的训练与推理，最后生成的效果不仅模糊，而且缝合严重。当时的主流研究方向是不断推出新的、效果更好的GAN模型，没想到3年后开启AI绘图商业化时代的并非GAN。

2022年4月DALL·E 2横空出世，效果惊艳，其核心是使用扩散模型以及CLIP模型。

简单来说，扩散模型通过加随机数逐渐增加噪声，而让模型学习如何一点点降噪，逐渐从噪声恢复出图片。在最初的算法中这个过程要迭代1000次，V100显卡大概也要几分钟才能出图，现在优化到50次了。在降噪过程中，给模型提供文本信息，模型就能按照我们想要的方向进行降噪。CLIP则是能将文本和图像关联起来的模型。

最后模型训练好了，只需要随机生成一个噪声图片，就能生成不同的图片了。所以即使输入的文本相同，最初的噪声图片不一样我们还是能够得到不同的结果。

关于DALL·E 2的论文精读可以看：DALL·E 2【论文精读】_哔哩哔哩_bilibili

不过下文提及的所有模型的原理并非都与DALL·E 2相同，效果也各有优劣。

本文主要整理并简单介绍了AI绘图工具的部署资源与攻略，项目多是使用python，通过阅读Readme即可复现，非常的新人友好。

二、AI绘图平台部署资源整理

当下AI绘图平台令人眼花缭乱，本文主要介绍可本地部署的AI绘图平台项目，其他的就一笔带过：

1、Disco Diffusion

简介：用于生成 AI 艺术和动画的笔记本、模型和技术的弗兰肯斯坦式融合（自嘲缝合怪）。

项目链接：https://github.com/alembics/disco-diffusion

运行方法：点击README.md下的Open in Colab进入谷歌远程计算资源运行

注意事项：部署在本地无额度上限，建议使用GPU资源出图较快，可只使用CPU但极慢，目前暂未实现GPU多卡并行（但已经有很多开发者在做了），使用Colab时记得不要挂一晚上，不然会显示

No CUDA GPUs are available

然后就需要等待24小时后才能获得GPU资源了。

实操效果：感觉Disco的NLP语义理解部分较表浅，无法支持图像继续迭代，画面偏缝合，但操作较为简单，适合初学者实践。生成的人脸部分效果很差。对输入描述细节的要求较高。输入需要英文描述。

“A digital painting of AI painting tools about to replacing human painters, trending on artstation, V-Ray.” （可以看到图像中将replacing理解为物理感官层面的替换，没有理解本义中功能代替的含义）标题

2、Stable Diffusion

简介：Stable Diffusion是一种潜在的文本到图像的扩散模型，与 Google 的 Imagen 类似，该模型使用冻结的 CLIP ViT-L/14 文本编码器来根据文本提示调整模型。凭借其 860M UNet 和 123M 文本编码器，该模型相对轻量级，能在具有至少 10GB VRAM 的 GPU 上运行。（实际不需要这么大的显存）

项目链接：

完全开源Alpha版：https://github.com/CompVis/stable-diffusion

Alpha版模型下载：https://huggingface.co/CompVis/stable-diffusion-v1-4

新出需付费Belta版：https://beta.dreamstudio.ai/dream

运行方法：

开源Alpha版见开源Alpha版链接中的README.md，也可参考https://zhuanlan.zhihu.com/p/563875944在colab中远程运行【在Tesla T4（约等于3080）上出一张512×512的图约30s】；

付费Belta版进链接后点击左侧Dream，下方Dream即可，约有200张左右的额度；

注意事项：测试4GB显存的GPU可以生成384×384的图片，512×512的图大概需要6G左右， 1024×1024的图则需要8G+，推理速度根据显卡和图片大小不同，大概需要20-60s；

实操效果：Alpha版在colab中运行效果极好（Tesla T4），为这个项目买一块3080都能保证回本，Belta版出图快又好。Stable Diffusion拥有四种功能：由文字生成图、由选定的图加tag继续生成定向的图、优化图像人脸部分、用超分辨率算法4倍优化低分辨率的图像。可以针对不同的图像生成种类更换推理模型。文字输入需要英文描述。

Futuristic Cyberpunk Mars City，并进行img2img，并用RealESRGAN进行超分辨率计算

3、文心·一格

简介：百度的产品，文心·一格是基于文心大模型的文生图系统实现的产品化创新。

项目链接：https://yige.baidu.com/

运行方法：下一步，有手就行

注意事项：需要申请内测资格，不过审批速度非常快

实操效果：用户界面非常友好，图像下载需要一一申请，图片效果偏向抽象缝合（描述越冲突越缝合），生成的人脸部分效果很差。输入需要中文。

未来的赛博朋克火星城市

4、Midjourney

简介：Midjourney是一个独立的研究实验室，探索新的思想媒介并扩大人类的想象力。作为一个小型自筹资金团队，Midjourney专注于设计、人类基础设施和人工智能，目前有 11 名全职员工和一群令人难以置信的顾问。

注意事项：需要付费，登陆速度感人。Midjourney在7月公布了收费计划，包含10刀/月和30刀/月的套餐，以及企业套餐，30刀/月的套餐最多可以生成900张图，超过需要额外付费。

5、DALL·E2

简介：如文初介绍。

注意事项：大陆地区不提供API。

6、谷歌Imagen

PPT状态

7、Parti

PPT状态

8、NUWA

PPT状态

9、Make A Scene

PPT状态

10、Tiamat

简介：Tiamat是一款模型和算法完全都是国内本土研发的人工智能绘画(AI绘画)工具，输入想要的画面关键词，等待5分钟就可以一幅不错的艺术画作。但需要申请资格。

项目链接： Tiamat – 人工智能创意灵感社区

注意事项：审批速度不快，暂未申请到资格T_T。

11、6pen.art

简介：6pen 基于AI技术，让你的文本描述变成绘画艺术作品，并可将你生成的作品投稿到有奖展览，在社区中展示，以创造更多价值。这个平台在贴吧、论坛上很火很火。

项目链接： 6pen Art

注意事项：不需要审批，效果尚可（毕竟是小团队），但免费用户出一张图需要15min（目前商业模式是靠卖给会员GPU计算资源赚钱）。未来随着Stable Diffusion V1的本地化部署、在线封装越来越多，类似的网站将层出不穷，就像虚拟人（Vtuber）公司一样。

在下篇中，笔者将详细整理AI绘图平台部署攻略链接，并畅谈一些随想，譬如画师如何预防自己的出图为经允许被作为AI绘图工具的训练数据、AI绘图工具的下一步发展方向、商业应用场景等等。

Original: https://blog.csdn.net/m0_37857300/article/details/127228680
Author: BingLiHanShuang
Title: 要点初见：AI绘图工具的部署资源、攻略整理（上篇）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651348/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用普通摄像头测量距离

近年来，由于无人机、无人车等技术的不断成熟，需要用到实时测距的场所也越来越多，如定位，避障，测速等，相比于其他测距方法，单目测距是利用一个摄像头进行视频拍摄，在图像中找到待测物体。…

人工智能 2023年5月26日
00128
python实现判断一段文本是否包含特定关键词

实现功能： python实现判断一段文本是否包含特定关键词输入：excel文件，某一列是一段文本陈述（如入院主述：全身关节疼痛2月）输出：判断该文本是否包含一些特定的关键词（如…

人工智能 2023年7月15日
0069
分类问题——广义线性回归

课程回顾线性模型只能应用在自变量和因变量是线性或者接近线性的情况。在现实生活中，数据之间存在着大量非线性的关系。为了解决这类问题，我们就需要对线性模型进行改进。例如在上面提到了…

人工智能 2023年7月2日
0085
深度学习3D可视化工具——Zetane Engine

神经网络在工作的时候，里面到底是什么样？为了能透视这个”AI黑箱”中的过程，加拿大蒙特利尔一家公司开发一个3D可视化工具Zetane Engine。只需要…

人工智能 2023年6月16日
0091
自然语言处理(NLP)之四：信息抽取

0. 信息抽取信息抽取（information extraction, IE）是将非结构化或半结构化描述的自然语言文本转化成结构化特征的一种基础自然语言处理（NLP）任务，它包括…

人工智能 2023年5月28日
00129
Pandas实现按条件删除多行数据

在工作中我们经常会遇到删除某些不符合条件的数据，而且有时候是删除多条，在这里我提供一个简单的操作办法 Question：删除有2个0以上的行（包含2个）先看下完整代码 df = …

人工智能 2023年7月7日
0051
k8s搭建 rabbitmq集群

工具版本k8s1.19rabbitmq3.7.8 rabbitmq镜像下载-CSDNmq镜像下载位置链接：https://pan.baidu.com/s/1tJ1xxfA174K…

人工智能 2023年6月29日
0076
Google Earth Engine（GEE）——NDVI时序线性插值补缺和导出视频结果案例分析（北京奥森公园为例）

本案例是一个综合案例：在NDVI时间序列上应用脚本使用OEEL库，在图像集上应用Savitzky-Golay滤波器。需要一个有规律的时间序列，没有任何遮挡的像素。所以这个脚本将…

人工智能 2023年6月20日
0084
python pandas 分割DataFrame中的字符串及元组

python pandas 分割DataFrame中的字符串类型数据的方法文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用a…

人工智能 2023年7月8日
00153
《社交电商中的分享推荐研究》论文阅读笔记

A Study of Share Recommendation in Social E-commerce 《社交电商中的分享推荐研究》该论文收录于35th AAAI 2021: V…

人工智能 2023年7月17日
0071
数据分析——AB实验

（一） AB实验概念 AB实验通俗讲就是在线上可以切出一部分用户（降低风险），完全随机的分成两组或多组（确保人群一致），一组保持现有的方案叫对照组，另外一组使用改进的方案叫实验…

人工智能 2023年6月11日
00106
基于Matlab的遗传算法优化BP神经网络的算法实现（附算法介绍与代码详解）

目录一、内容提要二、算法简介 2.1 遗传算法（Genetic Algorithm，GA） 2.2 BP（Back Propagation）神经网络三、实例计算四、代码解读…

人工智能 2023年7月12日
00120
用Cmake 编译OpenCV常见的错误

minGW32-make遇到的错误1： [ 37%] Linking CXX shared library …\bin\libopencv_core341.dllCMa…

人工智能 2023年6月19日
0089
NeurIPS2019 BBTP-Weakly Supervised Instance Segmentation using the Bounding Box Tightness Prior

https://proceedings.neurips.cc/paper/2019/file/e6e713296627dff6475085cc6a224464-Paper.pdf参…

人工智能 2023年7月14日
0058
自动驾驶之轨迹规划1——算法综述

1. 背景概述本文立足于智能车领域的轨迹规划，根据自己的整理和理解输出，权当做一篇学习笔记。这篇只是综述，每种算法的详细过程会在别的篇幅整理出来。首先解释一下一些基本概念：规划（…

人工智能 2023年6月10日
0084
语音信号预处理2——滤波、分帧处理及端点检测

写在前面：仅作为个人学习笔记，便于以后查阅，如对你有帮助，荣幸之至，如有错误，欢迎评论指正编程软件：matlab R2018b系统： win10 将.m4a的录音文件转化为.wa…

人工智能 2023年5月25日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

要点初见：AI绘图工具的部署资源、攻略整理（上篇）

1、Disco Diffusion

2、Stable Diffusion

3、文心·一格

4、Midjourney

5、DALL·E2

6、谷歌Imagen

7、Parti

8、NUWA

9、Make A Scene

10、Tiamat

11、6pen.art

大家都在看