https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYXE0dm3ziaDenjUqXDwablh1YGPo5zfyqqY2HrfBRydsZy8ictJWEeqFA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYVw9N1butcExWQswnAyoELQ5fNiabpx2fCCCYDjosnKfA0p2eJzBIVRw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
[data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
前言:近期,以Stable Diffusion、Dall-E、Midjourney等软件或算法为代表的AI绘图技术引起了广泛关注。尤其是自2022年8月Stable Diffusion模型开源以来,更是加速了这一领域的发展。
对于初学者来说,面对这些令人惊叹的AI绘图作品,他们既想了解绘图软件的使用和技巧,又面对着诸如Lora、ControlNet、Dall-E 等复杂术语,不知道从何入手。通过收集资料,本文将从以下四个方面介绍目前最流行的 AI 绘图工具和模型训练方法,力求用通俗易懂的语言帮助大家理清术语背后的真实含义。
[data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
text to image 技术,又称为文生图,是一种基于自然语言描述生成图像的技术。其历史可以追溯到20世纪80年代。
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYoxLvgsSwgCrjvkJTicGYDw3OvM8Xv0Rtgia9TUb94uWUUJUT5n7ytRkw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
随着深度学习技术的发展,特别是卷积神经网络 CNN 和循环神经网络 RNN 的出现,text to image技术开始采用神经网络模型进行训练和生成。
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYRcLco6uicDYD05ECkhxI5bxopI97MryIhCNIt3UPbqlAria7iaRB6iaVzQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
GAN(generative adversarial networks)和VAE(variational auto encoder)算法是最早被应用于 text to image任务的算法。
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYrMNmFMRwOIvfWToxpt9VguDThbcG9O8u1PkbQ6DTRQ5E2ia0VcNLRSA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
随着计算机硬件和算法的不断进步,越来越多的新算法涌现出来,例如Stable Diffusion 和Dall-E等。相较于传统算法如GAN和VAE,这些新算法在生成高分辨率、高质量的图片方面表现更加卓越。
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYUJbbbE0n4iaDfd5uZmbrMbBUXjRfRWy3J4b8lKibklAocSicOqfjumDLA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
Stable Diffusion(稳定扩散)是基于DPM(Diffusion Probabistic models)的改进版本,DPM是一种概率建模方法,旨在使用初始状态的噪声扰动来生成图像。模型会首先生成一张初始状态的噪声图像,然后通过逐步的运算过程逐渐消除噪声,将图像转换为目标图像。这也是我们在进行Stable Diffusion 绘图时,首先需要确定噪声采样方式和采样步长的原因。
https://mmbiz.qpic.cn/mmbiz_png/7ttMiaVBfibJCiby0aha8jdwN4ckkvdA9FYeRM1nhia8QQyVQfLbLURmPYsevPTiaoslzqVCRV59z0P1Fb98CNXOtoA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
Stable Diffusion是由Stability AI COMP、VIZ LMU和Runway合作发布的一种人工智能技术,其源代码在2022年8月公开于GitHub,任何人都可以拷贝和使用。该模型是使用包含15亿个图像文本数据的公开数据集Line 5B进行训练的。训练时使用了256个Nvidia A100 GPU,在亚马逊网络服务上花费了150,000个GPU小时,总成本为60万美元。
[data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E](data:image/svg+xml,%3C%3Fxml version='1.0' encoding='UTF-8'%3F%3E%3Csvg width='1px' height='1px' viewBox='0 0 1 1' version='1.1' xmlns='http://www.w3.org/2000/svg' xmlns:xlink='http://www.w3.org/1999/xlink'%3E%3Ctitle%3E%3C/title%3E%3Cg stroke='none' stroke-width='1' fill='none' fill-rule='evenodd' fill-opacity='0'%3E%3Cg transform='translate(-249.000000, -126.000000)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
Dall-E是OpenAI公司于2021年1月发布的一种基于Transformer和GAN的文本到图像生成算法,使用了大规模的预训练技术和自监督学习方法。Dall-E的训练集包括了超过250万张图像和文本描述的组合。该算法的灵感来源于2020年7月OpenAI发布的GPT-3模型,后者是一种可以生成具有语言能力的人工智能技术。Dall-E则是将GPT-3的思想应用于图像生成,从而实现了文本到图像的转换。