新火种AI|在AI赛道上，这家中国初创总是和OpenAI“不期而遇”

原创赞收藏评论

举报 2024-03-09

扫描,分享朋友圈

作者：一号

编辑：美美

中美AI之间的差距，没有想象中的大。

在春节假期尚未过完的时候，OpenAI再次效仿去年ChatGPT的火爆，展示了自家AI视频生成模型Sora，不仅打了国内外AI相关人士一个措手不及，也让众多的中国网民直呼“中美AI之间的差距越来越大”。

Sora的爆火，不仅仅在社交媒体。也有众多的官方媒体跟进了报道，更是吸引了诸如“李一舟”这样的“镰刀”，动起了“割韭菜”的心思。各种卖课乱象更是让人们拿来进行进行对比，即使他们本身就不是一回事。

但实际上，早在快1年前，中国就有一家AI初创公司发表了一篇论文，其内容可以说是和Sora的技术路线大同小异，都是提出了基于Transformer的Video统一生成架构。用他们团队的话来说，“可以说是几乎一模一样，就还得仔细地找到底哪里不同”。

这家公司就是去年还在十分费劲拉投资，却还处处碰壁的：智子引擎。

诞生与愿景

智子引擎成立于2021年，如今位于北京中关村，它由中国人民大学高瓴人工智能学院的博士生高一钊创立。这位年轻的CEO，携手卢志武教授——一位在大模型研究领域有着丰富经验的学者，共同开启了智子引擎的征程。

在创业之初，他们就选择在多模态大模型领域深耕，要知道，在那个时候，ChatGPT在国际上还没有什么名声。如今看来，这一决策在当时看来颇具远见。而且随着OpenAI、Google等一众AI大模型玩家将目光从大语言模型投向多模态模态，这一决策更是显得尤为明智。

将人工智能技术与实际应用场景相结合，推动AI技术的商业化和产业化是智子引擎的愿景。他们想成为多模态大模型领域的领跑者，希望通过不断的技术创新，给各行各业提供智能化的解决方案。

屡次“撞车”OpenAI

在2023年3月8日，智子引擎就发布了世界授课公开评测的多模态对话应用Chatlmg（元乘象），而那时OpenAI的ChatGPT风头正劲，Chatlmg激起的水花并不大，如今Chatlmg已经迭代到了3.5版本。你给它随机投喂一张图片，它就可以理解看图说话，用文字精准描述图中的内容。

不过在一个星期后，也就是2023年3月15日，OpenAI发布了其多模态预训练大模型GPT-4，当时看图写网站的展示真的惊艳了世人。

但第一次和OpenAI“撞车”，还要追溯到团队最开始还未成立公司的时候，在当时，团队就已经准备自演多模态大模型了，他们参与到了由高瓴人工智能学院院长带队的悟道·文澜，而在他们刚刚发布1.0版本后，仅时隔一个月，OpenAI也推出了多模态大模型CLIP。

值得注意的是，他们的相关论文在2022年被Nature Communications接收，成为世界首个被Nature子刊接收的多模态领域论文。.

如今，在Sora技术路线上的再次“撞车”，已经足以体现智子引擎团队的技术发展路上已经和世界前沿的AI公司十分接近，中美AI的发展道路其实差距并没有想象中那样，是一道“鸿沟”。

中国AI还能追上美国吗？

如今，GPT-4仅诞生近一年，就被Claude 3在多个测试中实现了超越，这意味着OpenAI实际上并非不可超越，不必对OpenAI过于神话。

不过让我们把目光转向国内，实际上，据刚刚发布的全球AI人才报告，全世界顶尖的AI人才中，由中国培养出的人才就已经占到了将近1/2。尽管在多项数据上，美国依旧还是第一，但是在人才的培养上，中美之间的差距也并非不可跨越。事实上，相当一部分世界领先的技术，例如智子引擎本次和OpenAI“撞车”的VDT以及前不久阿里推出的EMO，中美之间的技术差距实际上并非天差地别。

不过，可能很多人还是想问，为什么有相似的技术路线，甚至还要更早提出，但为什么最终拿出Demo的是OpenAI，而不是智子引擎？

这实际上和我们的现状有关，在制裁的限制下，中国获得先进算力的难度很大，在算力资源上就已经十分吃紧，一些互联网大厂购买到的算力资源都不够自身所需，何况那些没有资金基础，连生存都难以为继的初创公司。因此，即便有技术路线，在现实基础的制约下，发展相对缓慢也是很正常的。

值得庆幸的是，如今，智子引擎已经完成了数千万人民币的融资，它的未来还有希望。

本文系作者授权数英发表，内容为作者独立观点，不代表数英立场。
转载请在文章开头和结尾显眼处标注：作者、出处和链接。不按规范转载侵权必究。