被封号的字节跳动大模型,是否会重走游戏业务的老路?
字节跳动的大模型,被戴上了“抄袭”的帽子。
12月16日曾有市场消息称,因“使用OpenAI技术打造自己的大语言模型”,字节跳动违反OpenAI服务条款,遭到“封杀”。事件发酵后,OpenAI发言人尼克·菲尼克斯在当天作出回应,确认字节跳动违反服务条款属实,其账号已被暂停。
随后在17日,字节跳动对外声称未来几天将再次全面检查,并正在与OpenAI联系沟通,“以澄清外部报道可能引发的误解”。
这不由得令人联想起前不久的11月,李开复旗下零一万物大模型,被质疑“完全使用”Meta研发的LIama开源模型架构。两个在业界都具有不俗影响力的大模型产品,接连被爆出与“抄袭”相关的指控,不免令人对国产大模型产品的研发环境,报以不小的担忧。
参考国产大模型由上半年井喷式增长,到如今,核心技术层面频繁遭到质疑的现状,我们得出以下推测:
1.字节跳动遭封号后,仍处于研发阶段的大模型业务或将遭受重创,大概率将影响未来的产品运营,未尝没有可能会像游戏业务一样,最终遭到字节跳动的剥离。
2.国产大模型在快速发展的背后,或许存在着对核心技术的不重视,以及对上线速度的过分追求。尤其是对开源项目的依赖,也在不断增加抄袭暴雷的风险。
一、字节跳动大模型口碑崩坏,或将重蹈游戏业务覆辙?
我们必须正视,封号风波发生后,字节跳动大模型业务已经隐现口碑崩坏的危险。
危险来自一个词——众口铄金。
在大模型研发阶段,违反服务条款“借用”OpenAI技术,这一事件曝光后,相信包括许多AI从业人员在内,第一反应都会是猜测字节跳动走了“抄袭”的捷径。
尽管被封号的背后,仍可能存在着“误会”,事情真相也尚需查证和补充。但字节跳动在17日宣布将全面自检后,连续多天没有后续消息跟进,无疑给了负面信息加速发酵的机会。
舆情汹涌,字节跳动的澄清每晚一天,“抄袭”标签就会与字节跳动大模型关联得越发牢固。
考虑到字节跳动在前不久,刚刚因为经营战略的考量,大幅收缩朝夕光年的游戏业务并进行大规模裁员。如果大模型业务无法在短时间内,澄清遭OpenAI“封杀”与“研发抄袭”之间的联系,未必不会和游戏业务一样,落下个虎头蛇尾的境地。
或许会有人质疑,在人工智能产业发展大趋势下,字节跳动近一年来缩减了多条业务线,几乎集中了全部资源投入AI相关业务,怎么可能遭受一点挫折就前功尽弃?
但不妨想一想,在几年前,游戏产业同样被字节跳动寄予厚望。甚至在当时,游戏业务板块的分量,似乎并不比如今的人工智能弱上太多。
回顾2021年,字节跳动曾宣布进行组织架构调整,成立了抖音、大力教育、飞书、火山引擎、游戏、TikTok六大业务板块。同年,字节跳动更是斥资40亿美元,折合人民币约286亿元,收购了拥有东南亚现象级游戏产品的沐瞳科技。
据不完全统计,为了加快对游戏产业的布局,从2019年至2022年,字节跳动投资游戏产业超过22起,总投资金额超过了300亿元。
然而等待字节跳动的,是连续两年的“版号寒冬”。巨额成本投入难以换回相应的收益回报,字节跳动选错了入局游戏产业的时机,最终不得不在2023年,先是传闻称字节跳动将不低于50亿美元的价格出售沐瞳科技,又最终对朝夕光年进行了大幅收缩。
如今字节跳动大模型产品尚未研发成功,可国内外大模型赛道已然陷入高度内卷,算力不足以及盈利难题更是逼迫ChatGPT一度暂停会员服务。很难说字节跳动是否会像布局游戏业务一样,再次错过了最佳时机。
即便这次赶上了,持续走高的研发成本之下,在研发阶段就已经开始口碑受损的字节跳动的大模型产品,又能在盈利困难的局面下坚持多久?
要知道,字节跳动所面临的局面,要远比李开复旗下零一万物的“套壳抄袭”风波,更具风险。
零一万物在11月中旬被国外开发者曝光,在只修改了两个张量名称的情况下,“完全使用”的LIama模型架构,是开源的。即便零一万物套壳质疑属实,最多也只是违背了开源标准,以及Llama的用户协议。
简单来讲,此举虽然侵犯了Llama开源模型的研发者Mate的权益,但只要没有“实锤”,零一万物“借鉴行业公开成果”的做法,并不会影响实际运营和使用。
但是字节跳动大模型研发过程中,违规使用的OpenAI,则是闭源的。哪怕站在行业角度,借助OpenAI的技术来训练自家大模型,这样的做法在如今并不罕见,但终究只是见不得光的潜规则。
字节跳动不仅是违反了规则,更是极大损害了自研技术的形象。如果不能尽快澄清事实,抹除不良影响,只怕即便后期成功推出大模型产品,也很难抹掉“抄袭”的标签,有损业绩表现。
事实上,字节跳动目前正需要新的增长曲线,来应对二季度财报发布后的市场变化。
根据前不久发布的二季度财报,目前字节跳动主要的增长推动力,在于面向海外市场的TikTok。第二季度中,自家跳动实现营收290亿美元,同比增长40%,海外市场带来的收入约占公司总收入的20%。
但目前TikTok在美国、印度、印度尼西亚等多个重要市场,都遭到了当地政府的封杀或限制。其中,遭到针对性打击的方向,主要集中于电商、支付、数据服务等业务领域。
再加上Mate在近些年来,先后推出了借鉴TikTok主要功能和玩法逻辑的Instagram Reels、YouTube Shorts等短视频产品,字节跳动TikTok业务的增长正在丧失稳定性。
一旦TikTok增量空间开始缩减,字节跳动花费巨大的大模型业务,短期内又无法实现盈利和业绩推动,未必不会像游戏业务一样,遭到“及时止损”。
二、速度至上的国产大模型,开源项目成抄袭“原罪”?
其实严格来讲,字节跳动被质疑“抄袭”,确实有些冤枉了。
根据封号事件发生后字节跳动的公开回应,对OpenAI旗下GPT模型API服务的使用,发生于2023年年初的初期探索阶段。使用该服务的模型也是测试版,没有上线和对外使用的计划。
而且在2023年4月份,字节跳动引入GPT API的调用规则检查,并对字节大模型训练数据集进行严格规范后,使用OpenAI技术的做法就已经停止。
甚至在8月28日,OpenAI更新商业条款,提及“不得用使用(大模型)输出来开发任何与OpenAI的产品和服务有竞争的人工智能模型”后,字节跳动为了避免研发人员出现违规操作,专门在9月份进行了分批次内部抽检。
如果这些说法全都属实,很难想象为什么OpenAI会在时隔多月后忽然发难。
究竟是财报发布后,竞争对手的刻意针对,还是字节跳动有所疏漏,我们不得而知。但无论如何,字节大模型的口碑面临崩坏风险,已成为不争的事实。
然而在国产大模型市场中,这或许只是冰山一角。
早在2022年,就曾有消息曝光过,北京智源人工智能研究院涉嫌抄袭AI大模型综述研究。虽然事后被确认抄袭的两名作者,第一时间撤稿后,已向原作者致歉并收获谅解,但智源研究院仍然决定重组“大模型研究中心”,涉事的相关责任人也全都主动离职。
进入2023年后,国产大模型井喷式增长,更是引来了更多的“抄袭”质疑。
曾有业内人士透露称,现阶段许多初创公司为了追赶大模型风口,大都采用将ChatGPT集成至后台,只是对前端界面进行UI设计,就开始大肆宣传自己在开展AIGC创业,并上架各个平台抢夺用户关注。
然而,这类AIGC项目实则缺乏技术壁垒与商业逻辑,仅属“追热度的短期行为”,核心竞争力亦无从谈起。
相对成熟的做法,则是通过对开源项目的二次开发,完成基础模型框架的搭建,再利用ChatGPT等成熟产品生成AI数据,对自家大模型进行训练。
速度至上,俨然早已成为许多企业和机构对待大模型研发的主导思想。通过天眼查能够看到,ChatGPT问世一年不到,与大模型相关的企业信息已经增长至248条。
然而,在这一过程中,对开源项目的过度依赖,正在为行业的基础不牢带来负面影响。
大模型研发过程中,自然语言处理、计算机视觉等较为复杂繁琐的环节,开源项目能够提供丰富的算法和技术资源,有助于缩短研发周期,降低研发成本。然而,过度依赖这些开源项目,就容易导致基础不牢的问题。
一方面,过度依赖开源项目,会使企业在核心技术领域缺乏自主研发和创新能力。
开源项目虽然有着免费、高效、易于使用等诸多优点,但它们背后的知识产权和商业竞争风险不容忽视。如果一个企业完全依赖开源项目,那么在市场竞争中就很容易受到制衡,甚至可能因为开源项目的更新迭代、版权问题而陷入司法纠纷。
另一方面,过度依赖开源项目会影响行业的可持续发展。
所谓的开源项目,往往是由开发者社区自发式维护。就像曾经安卓系统开发初期,虽然开发者的热情带来了极快的更新速度,但由于技术实力等问题的限制,开源项目的质量参差不齐。
如果大模型行业过分依赖这些项目,可能会因为项目本身的缺陷或漏洞,导致系统不稳定、性能下降等问题。这对于大模型发展生态而言,无疑是埋下了极大的隐患。
最后,希望字节跳动早日澄清与OpenAI的误会,也祝愿国产大模型企业能够稳扎稳打,更多涌现拥有核心研发技术力的产品吧。
免责声明:本文基于公司法定披露内容和已公开的资料信息,展开评论,但作者不保证该信息资料的完整性、及时性。
另:股市有风险,入市需谨慎。文章不构成投资建议,投资与否须自行甄别。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)