..

对AI绘画原理的小澄清

本文包含了ChatGPT(GPT3.5-Turbo)生成的内容,但并非全部照搬。

人工智能技术在发展,AI绘画这一领域也受到社会各界关注。其中的AI绘画,自2022年底开始,作为一项富有争议的新兴技术,就触动了不少人的神经。然而,许多针对AI绘画发表自己见解的人,在对AI绘画原理的误解上就产生了很多偏差。其中最为常见的一个,是认为AI绘画只是简单地把画师的作品拼合而成,最多在接缝处用所谓的技术平滑处理一下,没有任何独创性和创造力。这种想法,既是对严谨的科研精神的背叛,也是对实事求是的艺术精神的羞辱,无论对于AI绘画还是对于传统艺术的研究和发展都不利,因此,具体说说以Stable Diffusion为首的一批AI绘画的原理,还是十分必要的。还要补充的是,Stable Diffusion虽作为AI绘画中最先引起轰动的那个,却并不是现代CS界最先进的绘画程序,尤其在非人物方面,Midjourney可能更胜一筹。

Stable Diffusion 官方仓库 NovelAI 官方网站 Midjourney 官方网站

首先,我们需要承认,固有的思维方式,无疑会引导我们对于AI绘画的产生不同的立场、认知。对于习惯了传统思想的人而言,认为AI绘画只是简单地将画师的作品拼合起来是非常自然的想法。因为他们的思路已经固定,在看到大量的标准化、批量复制传统艺术或商业化艺术的美学后,将AI绘画自然地当作传统艺术的延续,因此难以从根本上理解AI绘画的形式与意义。这种固有的观念禁锢,让他们局限在传统的艺术框架内,很难看到AI绘画的全新解构和超越。而拼图的这一种观点,就是旧观念和一种半瓶水的学习态度所共同造成的恶果,或者是别有用心之人面向公众散播恐慌的方式。许多画师轻易地相信AI绘画是拼图,也是因为拼图作为一种经典的抄袭手段,正好和AI的版权争议这一不争的事实相吻合。

然而,我们也不能否认,AI绘画确实存在一些缺陷。对于绘制某些特定对象方面,AI绘画依然存在一些局限性,不如人类艺术家灵活多变,难以自然地表达出情感和情感细微的表情,难以刻画具体事物,如画手、画面条。同样,AI绘画的创造也不是完全独立的,它们需要提取先前的画作来进行学习和模仿,因此存在着一定的“套路化”和“创意受限”,且因为训练集里的内容侵犯版权甚至人权,这些作品还要面临复杂的舆论风暴和法律争议。但是,这并不能够说明AI绘画只是单纯的拼接,或者如某些人所想,是所谓的“炼丹”工艺。恰恰相反,这更加体现出,AI是难以妄下定论的复杂工业品,它们可以通过加强自学习及深度学习的算法,无限接近于人类的思维和表达,在发展中更加自然地表达出“情感”与“意境”——因为若只是简单的拼图,那对于那些手、面条等元素,又怎么会变得模糊不清呢?难道是“原图”本来就很模糊而一笔带过吗?想想,大抵是不会的。面对不曾了解过的技术,与其胡诌一通,揣测它的内部原理,还不如把它当成简单的“黑箱子”,这样都比胡编乱造来得实在一些。

逻辑的论证是空虚的,然而,真的落到实处来看,Stable Diffusion的官方仓库中已经阐释了其内部具体的工作原理。只是涉及了很多专业术语,而“拼图”则是一个错误的过度简化。Stable Diffusion的本质,在生成的时候其实是一种降噪算法。可以理解为是让不清楚的图片变得清楚的一项“黑科技”。一个形象的比方是,到了冬天,窗户上凝结了许多水汽,窗外的世界都变得模糊了。而这就是Stable Diffusion生成一张图片时第一步所做的——它通过NLP(自然语言处理)分析用户的提示词,并根据这一讯息生成模糊至极的色块,就好像玻璃上厚重的雾。但通过对噪声图像进行多轮迭代,也就是拿一张纸去擦玻璃,逐渐就能生成分辨率高、真实感强的图像。这个纸就是一切AI中经常出现的一项技术,“梯度下降算法”,以它的力量来擦掉名为“图片噪音”的雾。在数学上,用初中的知识来解释,就是去找一个开口向上的函数图像的顶点,譬如是一个二次函数,那它的定点横座标就是-b/2a,原理都是相似的。只是计算机所处理的这个函数,不像初中学的那些函数,只有一个参数。相反,它可以有几亿个参数。凭借着CPU或GPU的强劲算力,计算机得以将一个特定的损失函数最小化,也就是一步步逼近某个n次n维函数的最低点,从而生成出与特定输入条件相匹配的图像。

Diffusion的英文原意是“扩散”,这就是这个AI的本职工作。(Stable则是自卖自夸,形容稳定。)这个过程中涉及图像具体处理的部分,首先是需要准备一个噪声图像。该图像包含了一些随机噪声的元素,并且极不清晰;而这个图像的生成,就是根据NLP对用户提示词的处理结果和一些随机数而从训练集里选择的。其实和人类绘画的过程并无大差,只是迭代的次数要多得多了——人类绘画是要打草稿的,这个噪声图像就是AI的草稿,AI就像人一样在这个时候便会确定什么地方该有什么,它该是什么颜色的。然后,利用一个深度神经网络(这个网络的形成当然也是依靠大量的图像训练,对其中的权重、参数进行调整)对其进行迭代,每一轮迭代都会对噪声图像进行“扩散”,即将它转化为一个更加细致、复杂的图像。所以擦窗户的纸或者布也正是用那些图片揉合起来造的。在每一轮迭代后,也会通过数学函数来评估生成的图像的质量,并根据反馈调整进行下一轮迭代。

由此看来,Stable Diffusion的原理也没有那么邪恶,至少不是明目张胆的狂抄。但这也并不是说用Stable Diffusion所制作的作品可以声称完全的版权,并接受来自法律的完全保护。这个问题实际上应该深发到更高的层面上,是关于版权本身的拷问。因为SD的原理是否可以看作和人类相同的一种学习行为,所以产生的作品可以主张完全版权,还是应该看作一种技术实验,一种产品,注定只能被放到公共领域里,作为CS爱好者的小众爱好,且严禁商业使用?

但无论如何,我们也不能忽视AI绘画的实际价值,不能对AI绘画简单的选边站。通过AI绘画,我们可以大大提高数字制图和算法绘制的效率,加快科技进步的步伐;通过AI绘画,小创作者可以越过知识和资金的限制,为自己的作品提供更好的创意,可以筹得一些捐款(不是直接用AI绘画盈利),获得选择人类画师来更好合作的自由,推动艺术的发展到一个全新的阶段。同时,AI绘画也将赋能技术,给CS带来新的机遇,有利于完善计算机这一伟大的互联网工具。

综上所述,我们在理解和认识AI绘画的时候,要有辩证的思考方式并比较分析。我们不能只看到其局限性,也不能过分夸大其优势和实际价值。许多CS工作者已经发现,2022到2023年的这些爆炸式增长的AI,在原理上其实没有什么创新。它们只不过是运用了更大、更大的训练集,仅此而已。无论有多大的阻碍,AI也会不断进化发展,技术的迭代也势必对艺术产生诸多影响。同时,也应该尊重传统的艺术创作者,艺术不是工业,而是人类对美好事物追求和一种社会手段。推进人工智能和文化艺术的共同发展,才是今后最有可能的主流声音。

临考日记计划
SHSEE Diary Project

雁过留声,人过留文。离中考还有49天,我希望能够通过写日记的方法,坚持到中考前一周左右,记录所见所闻所感。
这是本计划中的第2篇文章。感谢您的支持!

中心化博客 个人首页 博客导航

©️ 2017-2023 Helim Lee, running on HeliNetTM 4Charges(PPNN) "LocalHost" Server.
“荷岭网居”中文名称不是受完全保护的商标。“荷岭”是一处地名,任何人皆可正当使用。