所谓的“AI绘画”真的是一个ACGN领域插画的廉价解决方案吗?
2022年末,大量声音导向了NovelAI和其它类似的StableDiffusion的AI之ACGN绘图技术,并宣称“效果卓越”“超过一般画师水平”。随后,我进行了一些亲自尝试,发现:确实如此。随后关于AI替代插画师的恐怖论调高涨,紧接着是针对AI版权正义性的质疑蜂拥而至。
本质上,这些种种质疑之重要来源在AI的低门槛、低成本。可过去了数个月后,我却开始发现,AI绘画并不像公众想象的那样,真的是一种低成本的廉价方案。
“AI画风”的出现
这是现阶段AI绘画最常见的问题,也是流传最广的NovelAI泄露版中包含的一大漏洞。其实也不能称之为漏洞,只是数据集中成分组成不当,产生的恶果。
要明白,StableDiffusion这一类的AI绘图技术,本质上还是一种机器学习,通过让机器学习大量图片和噪化以及降噪这些图片的办法,来制造出一些“新的”图像。它的算法本身非为ACGN领域专门设计,而是一个通用的图像生成算法。其所涉及之领域大包含有“看起来很真实的”人像生成和“看起来很真实的”物体生成(这些普适性生成的内容都是用StableDiffusion项目默认的模型可以生成的)。
如果StableDiffusion技术只用于通过它默认的模型生成一些“看起来很真实的”图片,那么它其实并不具备商业化价值。毕竟除了很小一部分内容创作者需要用到“不存在但是很真实的人脸”或者“物品”之外,大部分的创作者们都可以通过摄影技术来直接拍摄这些对象——况且,StableDiffusion技术在用于生成摄影作品时的表现,往往并不自然。很多使用者都反馈了生成的人脸不协调,或者物品错位等等。
然后,NovelAI这种要吃ACGN饭的聚合AI企业注意到了SD技术。对,如果止步于用SD来生成希望能够以假乱真的摄影作品,恐怕有生之年都不大可能——因为世界上物品太多了,人类都不能按照Prompt随便就画出来其中一个,AI更不能接受这种庞大到离谱的训练集——且就算要建立一个巨大的训练集,所需要以标注数据的人手也是庞大的。然而,如果缩窄SD技术的训练范围,使其专精于一个领域,是不是就可以表现出更好的性能呢?而ACGN本身就和摄影作品有很大差别,并不要求那么“真实”。
所以,NovelAI对SD的运用取得了成功。通过制作一个只包含ACGN对象的训练集来训练SD模型,他们成功得到了一个能够生成可观质量的图像生成AI。随后这个AI被黑客泄漏,并引起了轩然大波。
问题也出现在这种训练模式里。NovelAI,显然,希望它所训练的这一程序,能够拥有众画师的特长。所以在选择训练集材料的时候,几乎是海纳百川式地在整个互联网络上通过爬虫搜集图像资料,然后分类为正面和负面。然而这种模式却把艺术的多样性完全忽视了——NovelAI以为,这就好像对全网所有优秀画师的画作取了一个平均值,理应是可以调和所有人的爱好了——殊不知,这在稍后导致了一种不自然、不协调的画风“AI画风”的出现。
首先,我个人发现“AI画风”的现象,是出于一种奇怪的心理反应。在浏览了相对中等数量的NovelAI所绘制的图片后,我发现我识别AI画作的能力明显上升了。不论其他私炉(个人模型)的效果,就NovelAI原版的模型所生成的图片,我已经能轻松辨认出来。我发现这些图片和那些人类画师制作的图片存在着显而易见的差距——感觉过于平凡,过于“平均”,过于“AI”了。
然后我便意识到,这还是SD本身的弱点。先前讲它无差别地讲互联网浩如烟海的画作吞进去,那么每一种差异极大的画作就要被强制地抹平,取为一个平均值。举个例子,一些训练集中的画作可能强调鼻子,另一些则可能直接不画鼻子,这样一来AI也将为难于要不要在最终的模型里控制鼻子,只能先来一个似有似无的鼻子应付。而这是大多数中级画师的画风,于是AI就算画工能达到中上水平,画风却和一般偏下的画师没有差异,一来其艺术价值(当然,这里指的是读者可以赋予给相关作品的艺术价值)也随之下降。
换言之,本来NovelAI以为使AI专精于一个领域——ACGN领域作训练,会缩小它的学习范围,从而专精一个领域,在有限范围内取得极其好的成果。然而问题在于,实际训练过程中,AI所学到的不同风格、不同细节的各类画作一窝蜂地汇在一起,其已经俨然相当于把AI的学习范围扩大了,且扩大到和SD默认模型差不多大(或许小一些?)的程度。这样一来,SD默认模型所有的那些不自然、不协调的毛病它一个也不会治愈。
在NovelAI泄漏的早期,它运用的还不十分广泛,主要是没有各种一键安装包云云。所以这种不自然不协调还可以算作特立独行的画风,且由于ACGN本身在人体上就不协调,短期内还可以“负负得正”。然而时间一长,纸就包不住火了。这种原来特立独行的画风一方面逐渐回归平庸,另一面开始形成一种人人喊打的NovelAI画风——这和版权维护运动有深刻的联系。
如此,AI简直可以称为搬起石头砸自己的脚。最后这些画风上的问题,反应在插画成本上,是只增不减的。单独的一幅画,除非个人饱眼福之用(现在NovelAI恐怕连眼福都饱不了),一定要有一些背景设计、故事设定等。而这种专属于一部作品的设计,是一定要和专属于一部作品,或至少一个作者的美术风格所配合,即要营造差异。这也是大企业工业产品的要点:纵使是从流水线上下来的内核,也要贴上一个独特的外包装吸引眼球。
想用私炉?
既然这样,为什么说是成本只增不减呢?
前面的内容说明AI的画风缺少差异化。那对于商业性稿件,也是关乎画师命脉的稿件类型来说,差异化将是必须的。在现在这个版权人人喊打的局势下,用NovelAI的原版模型来生成图片,稍微有点经验的人都能一眼看出来,然后开始各种攻击。就算没有人以版权为由提起意见,整个作品在独特性上就泯然众生了,输在了起跑线上。
所以“私炉”对应着这种差异化的需求而生。私炉即私人模型,可以理解为把训练集里的内容范围再一步缩小,以求得到一个有限区域内最佳的性能。这种范围能缩小到一种风格,一种感情,甚至缩小到某一个特定的作者。在最后一种情况下,AI的画作可以和原来被学习的那位画师的画风无二差异。
由于学习范围的缩小,私炉的优势增大。因为学习的风格单一,所以出图富有特定风格特色,不再像NovelAILeaks那样的平均。因为学习范围窄,所以画质质量能做到精益求精。
然而,是不是用私炉,针对某特定对象做训练就能制造出可大规模商业化的ACGN廉价解决方案呢?
答案当然是否定的。
首先,如果要训练一个私炉,那SD技术原来吸引人的“廉价”这一基本优势全无了。一张性能强劲的显卡和另一张电费账单加起来(还不顾及异常用电带来的可能麻烦),恐怕并不比找一个画师约稿,或者找一个画师约稿再喂给AI来得便宜。且很多特定风格作品数量不多,训练集专精的同时训练的数量就下降了,出图质量会下降。这里就牵扯一个复杂而非线性的关系,即由于图集专精导致的质量上升和图数减少导致的质量下降究竟在何时会彼超过此,它们的相会点在哪里谁也不知道。想要自己搞清楚这些问题,学习起来恐怕比好好学画画还要难——再进一步,雇佣一些专家来解决这些问题,则由于这方面人才稀缺,开价可能高得惊人。
其次,其实也不其次,就是版权问题在私炉能要了人的命。现在的私炉有很多种类,大体上分为从无到有的训练和依据某个训练集做一些优化(Dreambooth方法)。但总而言之,它们出来的结果都会变得有针对性,有特异化。前面说特异化对一部作品和一个品牌很重要,是不假。但这种特异化的前提是特异的是你自己的东西。如果是特异成一个特定而罕见的风格其实还好,如果是特异为某个画师那问题就大了。
大家不愿意承认,但现实是AI绘画领域里,如果你训练集里有全网一堆的画师,比如NovelAILeaks,那他们其实无法就某一幅AI作品要求AI使用者或训练者支付授权费——千万画师的作品都被用了,凭什么就你有意见?那再来,就算全体训练集里的画师联合起来要赔偿,那么多画师不得赔的倾家荡产?显然也是不现实的。那些看客们也就最多图口头之快骂上几句,离法院还有很远的距离。不过用私炉那情况就不一样了:Dreambooth其实还是有解释的余地,毕竟它还是针对某特定画师“优化”而不是完全的模仿。但从无到有训练的模型就不一样了,如果在未经授权的情况下把某画师的作品来训练一个模型,并将其产生的图片用于商用,画师将完全有正当理由控诉版权侵犯,而观众们也一眼能看出来这是仿的谁的作品——而且就着良心说话,这种针对某画师作品来训练,确实比针对全网画师作品一起训练来讲不公平得多,也确实不应该被提倡、确实应该受到制裁。
最后,一种被提出的可能的私炉方案,也应该受到否决。该方案是买下一个或几个风格近似画师所有作品的AI训练版权,这样就可以名正言顺地将这些作品据为己有。然而这种方案一旦实施,就意味着整个AI绘画领域要进入最闭锁的时期。目前的AI绘画领域还是开源软件(包括那些“被”开源的软件)占绝对优势地位,也有很多模型,包括针对个别画师训练的模型、针对特定画风训练的模型或者通用的模型。然而一旦以商业模式授权训练集中的作品,这些模型将不能被以自由的形式公开,AI绘画势必成为少部分人独占的工具。历史告诉我们,让少部分人占据科技绝对不是一个好主意。自互联网时代以来,千万的互联网精神的追随者一直致力于让科技归属于大多数,而AI绘画是一个契机,且他们现在已经占据了高地。那么,他们没有理由愿意放开这次机会。因此,这种商业化AI训练集的工程无疑将受到来自互联网精神的阻力。再来,那些画师们也会形成鄙视,鄙视那些出卖自己的画作,以AI强夺同行饭碗的画师。很快,商业化AI训练集的建立还会受到来自画师们的阻力。这两者加起来,甚至有可能联合起来,使得这种私炉方案非但成本飙升,而且受到舆论谴责,是捡了芝麻,丢了西瓜。
就是少谈理想主义的空话,最现实一些:AI私炉在成本上绝对不逊色于找专业画师约稿。
更好的Prompt?
那既然私炉不好,现阶段是不是还可以趁版权上面的漏洞拣软柿子捏,通过用NovelAI的默认模型(NovelAI在其ToS中生成其产物可以用于商业)辅以更精妙的Prompt提示来生成特色图片呢?
答案还是否定的。这种做法不是不可能,确实有相关AI绘画者通过精修Prompt实现了相当富有故事特色和创新风格的作品。但AI绘画是一个“低门槛,高标准”的艺术领域。因为入门已经很简单,但同行做得好的只有几个精尖人士。
而且,挖空心思钻研更好的Prompt难道不是舍本逐末吗?因为Prompt再好,它也只是给AI一些Prompt.,一些“建议和提示”。至于AI会不会采纳,会具体如何落实,都是它自己的模型和算法说了算。一些具体的动作用Prompt就很难把控到位。更别提什么画手部或者吃面条。如果选择人类画师,则可以多次沟通,精修修改。甲方与其想尽办法写更好的Prompt不如花点时间去学点正经的美术,这样好歹能画点东西喂给AI。反过来说,如果甲方实在抽不出空来学,那就花钱解决,要么请专业的Prompt研究者,要么请画师。请前者可能还不如请后者,毕竟后者产业体系要成熟一些,交易还有保障。
现在AI绘画正在走从技术转变为艺术的路线。这是一条正确的,且大多数人都希望它走的路线。Prompt的研究者们已经俨然成为了艺术家。可能在不久的将来,一条好的Prompt和一幅好的图片有等量的分量,也意味着,有等量的价格。
总之,“AI”绘画的低成本只是一个幻象。个人用一用,玩一玩还是不错,但要商用那可能难以取得成就,甚至可能无法收回成本。而广大画师也因此不用担心。至于互联网精神,则只可能抓住AI绘画这一契机,继续完成它把技术带给大多数人的契机。