文:Swagblueee,来源:wuhu动画人空间
原标题:比AI绘画更离谱的AI建模又卷起来了...打字就可以建模了???
不是吧...
AI绘画已经这么卷了!AI建模又来了?
前几天,我们还在讨论AI绘画进化到恐怖级。
二次元、写实、抽象……各种画风更是不在话下。
AI绘画又进化到了恐怖级!最强二次元AI绘画工具可能要卷走一批画师了!
然而,正当不少创作人热议这项技术的时候,AI建模技术也悄然而至…而且只要打字就可以自动建模?!
谷歌发布AI生成3D模型新方法
近日,Google Research最近推出了一款AI自动建模的新技术,名叫DreamFusion。该技术牛就牛在可以通过输入文本直接AI生成3D模型,并且是自带贴图的,开启了AI建模的新纪元。
在官方最新发布的论文中提到,如今所有的文本到图像的AI合成都是由通过数十亿个图像-文本匹配训练的扩散模型驱动的。
就相当于是存在一个相当丰富的预设资源库,AI只需要根据用户的输入选用、组合素材即可完成AI合成。但是如果将这种模型应用于3D模型的生成,则需要首先建立起庞大的带有标记的3D模型资产数据库和有效的3D数据去噪架构,然而这两者目前都是不存在的。
为了规避这些限制,Google的研发者们使用了一种预训练的2D文本-图像扩散模型来执行文本到3D模型的生成。
预训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验,证明了预训练图像扩散模型作为先验模型的有效性。
AI建模的探索之路
事实上,在今年9月份NVIDIA就发布了一款名叫GET3D的工具,它的开发初衷是为元宇宙内容建构人员可以更快创造大量且不同的3D物件,也为自动生成带贴图的3D模型打开了探索之路。
文中提到,随着多个行业朝着大规模的3D虚拟世界发展,能够生成大量的、高质量的、多样的3D内容的工具是非常被需要的。
但是目前市面上的3D资产的获取方式主要由Blender和Maya3D等建模软件手工设计,这个过程需要耗费大量的时间和专业知识。GET3D希望训练更好的3D生成模型,来生成下游任务可以直接使用的带纹理的3D模型。
但是,在之前通过AI生成3D模型的试验中,开发者面临着三点问题:
(1)缺乏几何细节
(2)缺乏纹理
(3)在合成过程中只能使用神经渲染器,3D 软件中不方便使用
为了解决以上这些问题,GET3D结合了可微表面模型、可微渲染器和2D的GAN等新技术来训练模型,实现了能够生成带纹理的、复杂拓扑结构的、丰富几何细节的3D模型。
GET3D将模型的生成分为两个支线,分别是输出模型表面拓扑结构的几何生成器和控制表面材质属性的纹理生成器。有了模型的形状和材质贴图,GET3D再使用可微分渲染器渲染到 2D 的图片。
GET3D甚至还支持可以手动调节参数来控制生成的模型颜色。其生成的模型材质细节非常丰富,除了基本的颜色、粗糙度、金属性,还可以体现法线贴图和多种高光效果。
GET3D让我们离人工智能驱动的3D内容创作大众化又近了一步,它对即时生成带纹理3D形状的探索也促进了DreamFusion的设想与开发。
参考文献:GET3D: A Generative Model of High Quality 3DTextured Shapes Learned from Images
除此之外,在文本引导的图像生成模型领域还曾提出过一个名叫3DiM的扩散模型,它可以从单个图像进行3D新视图合成。将3DiM与之前开发的其他模型在数据集上的工作进行了比较,发现3DiM从单个视图生成的视频实现了更高的保真度,同时大致具有3D一致性。
Diffusion Model无论从真实度还是还原度都几乎无可挑剔,已然拥有成为下一代图像生成模型的代表的潜力。
比如下面的马桶模型,只需要根据一整图片就可以AI生成另外两个视角的图片,根据三个不同视角的图片就可以搭建出一个立体的3D模型。
3DiM研究的研究为AI建模带来了一些启发:
1、证明了扩散模型对2D转3D合成的有效性。
2、随机条件反射 - 新型采样器,可实现近似的3D一致性。
3、可以使用图像分割工具UNet来实现权重共享和交叉注意力来改善结果。
4、开发出一套新的标准来量化无几何模型3D一致性,即3D一致性评分。
官方网站:3d-diffusion.github.io
简单来说,GET3D和3DiM分别探索了2D转3D,文字转2D的生成过程,为DreamFusion的产生做出了铺垫。
打字建模的理想照进现实
上文提到的GET3D还是需要提供一张2D图像作为输入,到了DreamFusion就只需要输入文字即可生成模型。
当你输入“青蛙穿毛衣”;
当你输入“骷髅小哥喝红酒”;
当你输入“老虎吃冰淇淋”;
当你输入“鹦鹉对战下国际象棋”;
当你输入“破壳小鸡站在蛋旁”;
当你输入“健身自行车在室内”;
是不是很好玩?
DreamFusion实现从文字到模型的转化主要是结合了两种新方法:神经辐射场和2D扩散。
如果是换建模师来完成一个文字到模型的创建工作,那么第一步就是建模师根据文字搜寻或构想出模型的具体形象,再根据这个形象来完成建模、贴图、渲染等一系列任务。
在DreamFusion中,它可以直接完成模型的建模和渲染,在建模的过程中AI可直接通过文本思考参照物然后围绕参照物自动建模。
这是一种用深度学习完成3D渲染任务的新型计算机视觉渲染模型。
不断优化后,AI建模已经进化成这样了!
现在可以通过AI的“意识”将输入的文字具象化出具体的符号图像。他的演变过程AI已经会具体非常强的画面视觉化的能力了。
2D扩散模型是Google自己的图像生成元模型,他可以将文本转为AI意识到的画面从而实现建模!
DreamFusion优化的每次生成迭代都包含四步:
(1)随机采样一个相机和灯光
(2)从该相机和灯光下渲染NeRF的图像
(3)计算SDS损失相对于NeRF参数的梯度
(4)使用优化器更新NeRF参数
不仅如此,DreamFusion模型中能够实现精确3D几何的关键组件,它在彩色图像上的表现非常出色,并更接近于真实图像的样貌。
参考文献:DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
DreamFusion的使用限制
面对如此神奇的黑科技,不少网友纷纷表达了对于AI技术高速发展的惊叹,同时也对未来建模师职业的担忧。
其实,目前的DreamFusion还属于试验开发阶段!
其文本输入只能根据官方的预设进行选择搭配,并且生成的模型分辨率还比较低,看起来并没有非常精致。
如果要导出的话只支持导出.glb格式,该格式目前只能适用于AR项目。想要高精度的三维模型,则只能作为低模导入到其他三维软件中进行雕刻和细化。
通过以下5张图来测试,我们来看看不同描述生成的松鼠模型。
虽然现在这项AI建模技术还处于一个不能大规模使用的实验开发阶段,不能供我们随意DIY自己想要的模型,但是在官方的网站中罗列展示了许多开发者训练生成的一些模型,既包括了白模,又有带贴图材质的,甚至还可以供浏览者下载这些AI生成的3D模型。
下载的模型可以导入Unity或者Blender做成AR增强现实中的道具,是不是也是很有意思呢?
AI建模的未来与展望
事实上,比起建模师手下栩栩如生、细节满满的模型来说,像DreamFusion所生成的模型就显得有些“粗制滥造”,在如今的数字生产中根本派不上什么用场。
但是,研究像DreamFusion、GET3D、3DiM这样的AI建模方法的意义并不是希望它们现在就可以让我们解放双手,而是在未来为我们开发出更实用的工具开辟新的灵感和道路。
如今AI技术的发展突飞猛进,像早先的DALL-E这种2DAI生成工具只花费了两年的时间就实现了从最初发布到如今的大规模应用,所以乐观来说DreamFusion的未来发展也许也比我们想象的要快得多。
说不定在未来的不久,我们就可以利用AI工具生成我们所需要的模型了,然后再根据实际需要稍作调整就可以应用到创作当中。到那时候,又是几家欢乐几家愁呢,让我们拭目以待吧!
本期话题:你对AI建模的未来有什么期待?
作者公众号:wuhu动画人空间(ID:wuhu1768)
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
全部评论(4条)