新火种AI|GPT-4o mini突然上线！该换小模型赛道的OpenAI意欲何为？

原创赞收藏评论

举报 2024-07-22

扫描,分享朋友圈

作者：小岩

编辑：彩云

ChatGPT 正式进入了“4”时代。

7月18日，OpenAI 官宣推出了GPT-3.5 Turbo的替代品——GPT-4o mini，至此，ChatGPT的更新迭代又近了一步，来到了4字开头的时期。据了解，即日起，ChatGPT的免费用户，Plus用户以及Team用户都能够使用GPT-4o mini，企业版客户也会在随后获得使用GPT-4o mini的权限。

OpenAI杀入小模型赛道！GPT-4o mini究竟有哪些过人之处？

在各大AI企业争相推出产品的当下，OpenAI的更新速度并不算太快。很多人都希望蛰伏许久的OpenAI能够一出手，就干件大事儿，诸如推出一个在各个方面都能碾压上一代产品的GPT-5.0。也正因此，很多人对于GPT-4o mini的出现感到些许失望。

但需要说明的是，GPT-4.o mini不仅不是一无是处，反而是一个极具代表性的产品。OpenAI把GPT-4o mini描述为“一个具有卓越文本智能和多模态推理能力的小模型”，这就对其进行了精准定位：小模型赛道上的领先产品。

图片1.png

据OpenAI介绍，GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面优于GPT-4，在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5 Turbo和其他小型模型，并且支持的语言范围与GPT-4o相同。而GPT-4o mini在函数调用方面也表现出色，可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。

此外，与GPT-3.5 Turbo相比，GPT-4o mini的长上下文性能有所提高,已经在几个关键基准上进行了评估，即推理任务，数学和编码能力以及多模态推力。

在推理任务方面，GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型，在文本智能和推理基准MMLU上的得分为82.0%，而Gemini Flash为77.9%，Claude Haiku为73.8%；在数学和编码能力方面，GPT-4o mini的表现优于市场上之前的小型模型，在测量数学推理的MGSM上，GPT-4o mini得分为 87.0%，而Gemini Flash得分为75.5%，Claude Haiku得分为71.7%；在测量编码性能的HumanEval上，GPT-4o mini得分为87.2%，而Gemini Flash得分为71.5%，Claude Haiku得分为75.9%；在多模态推理方面，GPT-4o mini在多模态推理评估MMMU中也表现出色，得分为59.4%，而Gemini Flash为56.1%，Claude Haiku为50.2%。

图片2.png

更重要的是，GPT-4o mini还有一项极具竞争力的优势：价格足够实惠。

OpenAI表示，开发人员使用GPT-4o mini时，每100万个输入tokens需支付15美分，每100万个输出tokens需支付60美分。这个定价比之前的Frontier型号便宜了足足一个数量级。即便与自家的上一代产品GPT-3.5 Turbo也要便宜60%以上。

GPT-4o用起来究竟如何？一手测评结果：懂得不算多，但速度绝对快。

当然，理论上的优势说的再多，也不及大家的实际体验来得重要和直观。

目前，GPT-4o mini 在 WildBench 测试上排名第9，优于谷歌的Gemini-flash以及 Anthropic的Claude 3 Haiku。看得出来，大家对于这款新晋产品还是很感兴趣的。

有网友在GPT-4o mini开放测试的第一时间就赶过去问它了一个问题：9.11和9.9哪个大？

很遗憾，GPT-4o mini没有给出正确的答案，不仅没有给出正确的答案，还在错误的路上越走越远，一本正经地回答9.11大于9.9，因为0.1大于0.9。

图片3.png

随后，网友在 Poe（Quora 开发的应用程序，已经集成了 GPT-4o mini）中输入人物传记电影《Eno》的设计封面，让GPT-4o和GPT-4omini模型进行解读，结果 mini翻车了。GPT-4o mini 直接表示“自己认不出照片上的人”，反而是GPT-4o的回答就比较准确。

不过，说起响应速度，那么GPT-4o mini确实对得起OpenAI给予的“faster”标签。与它进行对话，几乎无需任何等待，输出速度堪称快的离谱。

尽管就目前来看，GPT-4o mini回答问题的准确性还有待提高，但不可否认，它目前已经是性能最为优越的小模型了，完全可以超越GPT-3.5 Turbo和其他小模型。据了解，GPT-4o mini的知识更新到去年10月，语言种类和GPT-4o对齐，上下文窗口为128k。

图片4.png

当下的GPT-4.o mini在API中仅支持文本和视觉模态，而在不久的未来，它还将扩展到视频和音频的输入及输出。尽管还没有任何参数规模被披露，但OpenAI的官方直接表示，这是他们目前最经济，最有成本效益的小模型了，微调功能也将很快上线。

小模型的出现，才能真正完成OpenAI的使命？

虽然GPT-4o mini是一个小模型，但相较于大模型，它在性能上并没有做出太大妥协。

得益于优化的架构设计和高效的算法，GPT-4o mini 能够在保留大模型强大性能的基础上，提供更加轻量级的解决方案。这使得它在处理文本生成，对话和翻译等任务时，依然能够表现出色。

但是问题来了，先前一直在做大模型的OpenAI为什么选择转头深耕小模型赛道？

OpenAI API方面的负责人Godement表示，这涉及到一个“优先考虑”的问题。此前，OpenAI专注于GPT-4这样的大模型，而随着时间的推移，OpenAI终于注意到了开发者们渴望对小模型的愿景，才终于决定投入资源。据了解，OpenA对于GPT-4o mini是非常有信心的，认为其一定会非常受欢迎。

图片5.png

事实的确如此。对于渴望低成本构建应用的开发者来说，GPT-4o mini来得太及时了。譬如金融初创公司Ramp在测试中，就用它构建了提取收据上费用的工具，不必费力浏览文本框，模型就会自动对所有内容排序，大大提高了工作效率。

在OpenAI设想的未来里，模型将会被无缝集成到每一个应用程序和每一个网站之上。如今，随着GPT-4o mini的推出为开发者更高效、更经济地构建和扩展强大的AI应用铺平道路。可以看到，AI正在变得更容易访问，可靠，并会融入到所有人的日常体验中。而OpenAI，则会继续引领这一进程。

曾几何时，OpenAI也是一心要走大模型之路的，可惜这条路它们走得并不顺利。尽管相较于上一波AI公司，OpenAI创造了更大的现金流，但从战略上说，它并没有把自己倒腾到一个合适的位置上。

在这种情况下，一味死磕大模型，很有可能给公司造成毁灭性的打击，会导致高昂的人才，训练成本根本找不到落点。更可怕的是，一旦技术增长停滞后，它的客户端注定会把它踢掉或者在多个供应商之间压价。这就会导致大模型公司变成赚钱费劲，花钱很痛快的公司，这是没法长久维持的。所以做大模型。不管创造了多少收入，本质上还在险境里面。

如今，OpenAI显然找到了更适合自己的打开方式。但有一点毋庸置疑，大模型要卷，小模型也要卷，不卷是不可能的。

本文系作者授权数英发表，内容为作者独立观点，不代表数英立场。
转载请在文章开头和结尾显眼处标注：作者、出处和链接。不按规范转载侵权必究。