智谱AI再放“大招”，30秒将任意文字生成视频

原创赞收藏评论

举报 2024-07-26

扫描,分享朋友圈

继文本生成、图像生成后，视频生成也加入到了“内卷”行列。

7月26日的智谱Open Day上，在大模型赛道上动作频频的智谱AI，正式推出视频生成模型CogVideoX，并放出了两个“大招”：

一个是智谱清言打造的视频创作智能体清影，可使用文本或图片生成时长6秒、1440x960清晰度的高精视频。

另一个是智谱清言小程序上线的“让照片动起来”，可以直接在小程序中上传照片，输入提示词生成动态视频。

不同于一些小范围开放或预约才能使用的产品，清影智能体面向所有用户开放，输入一段提示词，选择自己想要的风格，包括卡通3D、黑白、油画、电影感等等，配上清影自带的音乐，就能生成充满想象力的短视频。企业和开发者也可以通过调用API的方式，体验文生视频和图生视频能力。

由此引出了这样一个问题：目前视频生成类产品仍处于“可玩”的阶段，距离商用仍然有不小的鸿沟，智谱AI的进场将产生什么样的影响？

01 更快更可控的“清影”

在Sora引爆视频生成赛道后，行业内掀起了一场连锁反应，先是Runway、Pika等产品在海外市场走红，国内在4月份以后也陆续曝光了多个文生视频类大模型，几乎每个月都会有新产品上线。

市场层面越来越热闹，体验上却陷入了相似的困局，确切的说是两大绕不过去共性问题：

一是推理速度慢，哪怕只是4秒的视频，也需要10分钟左右才能生成，而且视频越长，生成的速度越慢；

二是可控性差，在限定的语句和限定的训练样本内，可以有不错的效果，一旦“越界”就会出现“群魔乱舞”的情况。

有人将其比作为游戏中的“抽卡”，多试几次才会生成想要的效果。然而一个无法掩盖的事实是，倘若文生视频要尝试25次才能生成一次可用的，每次生成的时间动辄10分钟，意味着想要获得一条几秒中的视频，需要长达四个多小时的时间成本，所谓的“生产力”也就无从谈起。

在智谱清言里试用了“清影”的文生视频和图生视频功能后，我们发现了两个令人惊艳的体验：生成一条6秒的视频，只需要花费30秒左右，推理时间从分钟级被压缩到了秒级；采用“镜头语言+建立场景+细节描述”的提示词公式，一般“抽两三次卡”就能够获得让人满意的视频内容。

以文生视频的场景为例，给“清影”输入“写实描绘，近距离，猎豹卧在地上，身体微微起伏”的指令后，一分钟内就生成了一段“以假乱真”的视频：风吹动草地的背景，猎豹不断晃动的耳朵，随着呼吸起伏的身体，甚至每一根胡须都栩栩如生……几乎可以被误认为是近距离拍摄的视频。

为什么智谱AI可以“跳过”行业内普遍存在的痛点？因为所有的技术问题，都可以通过技术上的创新解决。

隐藏在智谱清言视频创作智能体“清影”背后的，是智谱大模型团队自研打造的视频生成大模型CogVideoX，采用了和Sora一样的DiT结构，可以将文本、时间和空间融合。

通过更好的优化技术，CogVideoX的推理速度较前代模型提升了6倍；为了提升可控性，智谱AI自研了一个端到端视频理解模型，为海量的视频数据生成详细的、贴合内容的描述，以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，并能够理解超长复杂prompt指令。

如果说市面上的同类产品还在“可用”上下功夫，创新上“全垒打”的智谱AI已经进入了“好用”的阶段。

直接的例子就是智谱清言同步提供的配乐功能，可以为生成的视频配上音乐，用户需要做的仅仅是发布。无论是没有视频制作基础的小白用户，还是专业的内容创作者，都可以借助“清影”让想象力化为生产力。

02 Scaling Law再次被验证

每一次看似不寻常的背后，都有其必然性。在同类产品要么不开放使用，要么还处于阿尔法版本的阶段，“清影”之所以成为人人可用的AI视频应用，离不开智谱AI在频生成大模型上的多年深耕。

时间回到2021年初，距离ChatGPT的走红还有近两年时间，诸如Transformer、GPT等名词只是在学术圈讨论时，智谱AI就推出了文生图模型CogView，可以将中文文字生成图像，在MS COCO的评估测试中超过OpenAI的Dall·E，并在2022年推出了CogView2，解决了生成速度慢、清晰度低等问题。

到了2022年，智谱AI在CogView2的基础上研发了视频生成模型CogVideo，可以输入文本生成逼真的视频内容。

彼时外界还沉浸在对话式AI的场景中，视频生成并不是焦点话题，但在前沿的技术圈里，CogVideo已经是炙手可热的“明星”。

比如CogVideo采用的多帧率分层训练策略，提出了一种基于递归插值的方法，即逐步生成与每个子描述相对应的视频片段，并将这些视频片段逐层插值得到最终的视频片段，赋予了CogVideo控制生成过程中变化强度的能力，有助于更好地对齐文本和视频语义，实现了从文本到视频的高效转换。

Meta推出的Make-A-Video、谷歌推出的Phenaki和MAGVIT、微软的女娲DragNUWA以及英伟达Video LDMs等等，不少视频生成模型都引用了CogVideo的策略，并在GitHub上引起了广泛关注。

而在全新升级的CogVideoX上，诸如此类的创新还有很多。比如在内容连贯性方面，智谱AI自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，配合3D RoPE位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

也就是说，视频创作智能体“清影”的出现绝非偶然和奇迹，而是智谱AI日拱一卒式创新的必然结果。

大模型行业有一个著名的定律叫Scaling Law，即在不受其他因素制约时，模型的性能和计算量、模型参数量、数据大小呈现幂律关系，增加计算量、模型参数量或数据大小都可能会提升模型的性能。

按照智谱AI官方给出的信息，CogVideoX的训练依托亦庄高性能算力集群，而且合作伙伴华策影视参与了模型共建、另一家合作伙伴bilibili参与了清影的技术研发过程。沿循这样的逻辑，“清影”在生成速度、可控性上超预期的体验，无疑再一次印证了Scaling Law定律的有效性。

甚至可以预见，在Scaling Law的作用下，后续版本的CogVideoX，将拥有更高分辨率、更长时长的视频生成能力。

03 “多模态是AGI的起点”

一个可能被习惯性忽略的信息在于，智谱AI并没有将“清影”作为独立的产品，而是以智谱清言的智能体上线。

个中原因可以追溯到智谱AI CEO张鹏在ChatGLM大模型发布会上的演讲：“2024年一定是AGI元年，而多模态是AGI的一个起点。如果想要走到AGI这条路上去，只停留在语言的层面不够，要以高度抽象的认知能力为核心，把视觉、听觉等系列模态的认知能力融合起来，才是真正的AGI。”

5月份的ICLR 2024上，智谱大模型团队在主旨演讲环节再次阐述了对AGI技术趋势的判断：“文本是构建大模型的关键基础，下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练，构建真正原生的多模态模型。”

过去一年多时间里，大模型的热度一浪高过一浪，却未能摆脱“缸中大脑”的局限，应用场景十分有限。而大模型想要脱虚向实，想要走进实际的生活和工作中创造价值，必须要长出手脚的执行能力，比如在语言能力外延伸出听觉和视觉的能力，并通过这些能力和物理世界进行无缝连接。

再来审视视频生成大模型CogVideoX和视频创作智能体“清影”，无疑可以得出一些不一样的答案。

CogVideoX的文生视频、图生视频能力，可以看作是对认知能力的拆解，先实现单项能力的突破；以视频创作智能体形态出现的“清影”，可以看作是对不同模型能力的收拢，在原生多模态大模型还不太成熟的情况下，用户可以通过多个智能体的组合，高效且精准地解决现实问题。

可以佐证的是，在智谱AI的大模型矩阵里，已经涵盖具备视觉和智能体能力的GLM-4/4V、推理极速且高性价比的GLM-4-Air、基于文本描述创作图像的CogView-3、超拟人角色定制模型CharacterGLM、擅长中文的向量模型Embedding-2、代码模型CodeGeeX、开源模型GLM-4-9B以及视频生成大模型CogVideoX，客户可以根据不同的需求调用不同大模型，找到最优解。

而在To C应用方面，目前智谱清言上已经有30多万个智能体，包括思维导图、文档助手、日程安排等出色的生产力工具。同时智谱AI还推出了由数十万个AI体组成的多智能体协作系统——清言Flow，不仅限于单一智能体的交互，涉及多轮、多态、多元的对话交互模式，人们仅需通过简洁的自然语言指令，就能处理高度复杂的任务。

做一个总结的话：现阶段距离真正意义上的AGI还有不小的距离，但智谱AI正在用“单项突破，能力聚合”的方式，提前让AGI照进现实，让强大的大模型能力真正用来帮助人们的工作、学习和生活。

04 写在最后

需要正视的是，目前视频生成大模型对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，仍存在非常大的提升空间。

在通往AGI的路上，智谱 AI等大模型厂商不应该是孤独的行路者。作为普通用户的我们，也可以是其中的一员，至少可以在智谱清言上用自己的“脑洞”生成有趣的视频，让更多人看到大模型的价值，利用AI提升创作效率的同时，加速多模态大模型不断走向成熟。

本文系作者授权数英发表，内容为作者独立观点，不代表数英立场。
转载请在文章开头和结尾显眼处标注：作者、出处和链接。不按规范转载侵权必究。