实话讲,AI绘画的新功能让我有点焦虑

举报 2023-03-23

(本文图片大多由stable-diffusion生成)

去年10月,我写了一篇《AI绘画真的在影响内容创意行业|十一漫谈》。当时,AI绘画虽然惊艳,但是在实用时仍面临问题,比如画手非常奇怪、缺乏真实性、可控性不足、上手门槛高。


然而在最近几个月,AI绘画进步实在太快了。秒出线稿、上色补完、风格学习、手部骨骼、真人换装......真不知道几个月后能走到哪一步。虽然感觉离失业不远了,但这就像是一个新玩具,玩起来乐此不疲,在这里想分享一些我认为有前景的AI绘画功能和实用方向。如果有兴趣,欢迎后台私信交流。

Part1「算力有尽,模型无穷」

自从stable-diffusion算法开源之后,浩浩荡荡的群众就加入了“炼丹”大军,想要的模型还没有,就自己造。一时间云端算力涨价了,不少学生党表示想哭。


只能说氪金就是猛,随着大量网友参与“炼丹”,基础大模型展开了不少分支,基于亚洲人脸为代表的大模型Chilloutmix更是引发了关于真实人物绘图道德伦理的热议。



网友们做的多种模型封面我也尝试了多各种模型,以网友@xiaolxl 在civitai上分享的国风3模型为例,通过这一模型,可以绘制出更有中国华丽古风风格的图片、古风游戏角色,并具有2.5D的质感。


模型参考图跑了一堆之后精挑细选一张放过来。

相较于我在上一期产出的图片,可以明显看出质量的上升,甚至说在画质修复提升后,商用都不夸张。当然除了我熟练度的微小提升之外,主要是大模型打的底非常好。而很多模型的塑造,在目前看只是时间和素材量的问题。听说不少游戏公司已经开始试用这个方法出图了,省下很多成本。

如果说大模型是创作的基础,定义了产出图片范围以及风格,那lora则是在大模型下的滤镜。相较动辄10个G的大模型,几百M的LORA则更为灵巧。

LORA,即Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应。重点是对大模型,进行一些微调,更侧重生成更具有专属风格、细节的图片。其依托大模型存在,训练所需的图片/算力量均相对较小。今年2月,一组来自@勘云工造的照片,在网上掀起了不少波澜,作者更是得到了各路顶级画师、模型师、制作人、coser的关注,无他,太真实了。肉眼难以辨识的相似,甚至被某些网站直接拿去做了广告图片。


随之而来的是赛博coser正式走上舞台,在小红书等社交平台上,以ai图为卖点的自媒体账号也肆意生长,成为了一个新的内容方向。其实我也考虑过要不要做一个,但是想到变现比较困难就暂时放弃了。此外,通过定制化的小模型或者补丁,生成特定风格的图片,则更加实用。

比如下方例图,是用CharTurnerBeta - Lora ,来生成的三视图。      

以及AI模特换装,甚至有的只用给人偶拍照,就能替换生成,相信电商平台提供类似服务也是迟早的,淘宝模特的需求,危啊

(B站上的一个教程,方法还有很多)


Part2「创造新方式,和AI交流

人与机器的沟通,一定要通过文字吗?是否可以有一种其他语言?

在目前的习惯中,我们通常通过输入文本prompt来控制AI的输出,然而这一行为并不完美。虽然文本符合人类交流习惯,但是同一文本在不同语境有多种应对,也因此衍生出了更广阔的释义空间,比如鱼香肉丝到底对应一道菜,还是有丝状鳞片的鱼。(这不是玩笑,而是沟通方式导致的现状,文生图背后需要大量的标注先行,耗时耗力。当然,这只是个时间问题)一位网友在和我闲聊时,提出了一个说法,画图时要有“穷举”的精神,然而这可太不智能了。


因此,研究人员也试图找到一些其他方式,来与AI沟通。2月初,斯坦福大学Lvmin Zhang and Maneesh 的论文《Adding Conditional Control to Text-to-ImageDiffusion Models》提出了一些方法和可能性。并且已经得到了开源和实际应用。

方式一:openpose 动作姿态定制

首先可以选择一张图片,提取人物的关键肢体形态。

在这一步骤中,我们可以调整它的关联骨架形态。随后,添加关键词,生成了一张新图片。从面部朝向,腿部肢体动作上看,可控性非常强。


方式二:canny 边缘检测提取轮廓

通过边缘检测,根据已有图片提取线稿,如有需要还可配合AI绘图功能重新上色生成图片。这在游戏原画、室内装潢设计等等各个领域都将大放异彩。


除此之外,还有segmentation、deph等方式,可以提取材质、距离景深等要素,以便于生成新的图片,在这里就不一一列举了。


总的来说,ai绘画有太多可能性了。每天都有新变化,新应用,这篇文章可能发布没多久就会过时。但可以预见的是,在几年内,大量的办公室轻工作将被替代,生活将被重构,所有人都在浪潮之中。这场人文社科领域的工业革命,还远未来到高潮。
以上,是本期的主要内容,后续还会不定期更新行业进展,以及一期AI绘画在广告行业的实用指南,敬请期待。




本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    全部评论(1条)