新火种AI|Devin再次震撼谷歌！但却是以被质疑造假的方式...

原创赞收藏评论

举报 2024-04-24

扫描,分享朋友圈

作者：小岩

编辑：彩云

我们常说有人的地方就有江湖，就会存在炒作，扒皮和虚伪。没想到，到了人工智能这里，也是一样。

4月9日，一位自称有35年软件工程师经验的网络博主卡尔逐帧复现了人工智能软件师Devin的演示视频，并据此提出4点质疑。他认为Devin所展示的编程能力存在一定欺骗性，并且“所处理的任务并非随机，而是演示者精心选择的刻意呈现”。

图片1.png

这个Devin极其特别，被称为“全球首个AI人工智能软件师”，它被质疑造假，这件事足以震惊整个硅谷，乃至全球AI领域。

细扒全球首个AI程序员的上线经过...

我们先来了解一下Devin的来历。

Devin是由Cognition Labs于今年3月12日发布的一项AI编程产品，它最大的宣传点是“全球首位AI工程师”。

主创介绍，Devin在长程推理和规划上面下了很大功夫，可以规划和执行需要数千个决策才能完成的复杂软件工程任务。具体来说有6大功能：端到端构建和部署程序，可以解决的不只是代码问题，还包括与之相关的整个工作流；自主查找并修复bug；训练和微调自己的AI模型；修复开源库；为成熟的生产库做贡献；超强学习能力，实时补足知识和能力短板。Devin完整技术报告中显示，在SWE-bench基准测试中，无需人类辅助，Devin可解决13.86%的问题。

图片2.png

这个数据看似平平无奇，但其实已经超过了此前所有AI大模型的成绩。要知道，目前数一数二的GPT-4，在同个测试中的成绩只有1.74%，且必须配备一个人类，提示它要处理哪些文件。

Cognition Labs始终没开放公测，但陆陆续续给出了一些内测名额。耐人寻味的是，很多人在当时上手体验过了，还给出了很高的评价。譬如热衷AI的沃顿商学院教授Ethan Molick试过后就大大赞赏了Devin，认为其新颖的实时交互方式是最值得关注的。他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站，随后透露，AI还无法在没有任何帮助的情况下，自主且无差错地完成这项工作。

被认为是炒作!所谓专业实力，不过是“自导自演”。

可反转就这么毫无预兆的出现了。

在Cognition官网发布的长达1分50秒的演示视频里，Devin只需一句指令，就能实现端到端地处理整个开发项目。视频中还表示，它具备自主学习新技术，端到端构建和部署应用，自主查找以及修复代码问题等方面的能力。此外。，Devin还可以按照用户需求同时执行多步骤工作流程，程序员们可以实时观察其进度，发现错误时，跳出指令就能修正。

但博主卡尔却站出来质疑，认为这些宣传是不实的。Devin在操作过程中看似修复了许多问题，但这些问题很多都是Devin的“自导自演”。他认为，在上述演示视频的2.936秒处，屏幕左上角显示“他们搜索过这个任务”，这意味着演示视频中Devin处理的任务并非随机，而是演示者选择的，甚至还出现了“自己现写bug然后当场修复”的骚操作。

图片3.png

除此之外，Devin还有很多其他的槽点：譬如号称能解决任何Upwork任务，但演示中解决的问题并不是prompt要解决的那一个，简直是在做无用功。或者看起来在修复bug，但是这些bug毫无意义，因为真正的人类程序员根本就不会犯那种错误。还有些时候，Devin就是在做没有意义的事情，很多事情简单两步就能搞定，但它却花里胡哨的一顿操作，把简单的问题复杂化。

至于Devin修改代码的真实水平，也只能说是一言难尽。在演示视频中，Devin花费了足足6个小时才完成了任务，而这些内容，博主卡尔仅用了半个多小时就完成了。

大瓜激起千层浪！专业人士普遍认为：博主的质疑有理有据。

博主卡尔的质疑在圈内引起了极大的热度和热烈的讨论，这件事在推特和YouTube的热度居高不下，成为了网友们争论的焦点。

一个月前，Devin的诞生成功引起了整个AI圈的注意；如今,Devin的塌房再次吸引到了全AI圈的目光。

图片4.png

而事件背后所承载的影响力也是深远的。要知道，Devin背后的公司Cognition AI手握10块IOI金牌的活招牌，还在推出Devin当月宣布成功融资2100万美金。

Cognition AI背后的团队成员共10人，核心团队共有3人，分别是Scott Wu，Steven Hao和Walden Yan，团队非常年轻。全体成员共拥有10枚国际信息学奥林匹克竞赛（IOI）金牌，很多成员在青少年时期也参加过信息学国际奥林匹克竞赛等。在发布“全球首个AI程序员Devin”这一信息后，Cognition AI备受外界关注。公开资料显示，此前，Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。一旦造假事件落下实锤，所能带来的后坐力无疑是巨大的。

对于博主卡尔的质疑，网络上的口径大多是站在了博主一边，很多网友都对Devin的造假嗤之以鼻。有人还调侃，“Devin至少掌握了看起来很忙的技巧”，很多专业人士也认为卡尔的质疑有理有据。

仔细复盘一下，大家会发现Devin和Cognition AI的疑点早已存在。直到今天Devin 都没有开放使用，只能通过邮箱提交申请。所以，外界对Devin的认知，基本都来自官方给出的演示视频，以及少数第三方开发和产品人员的评价，很少有人有机会可以对其进行真正的体验和测评。

所以，我们有理由相信，从呈现出的结果来看，Devin的确有虚假炒作，过度包装的嫌疑。如果是头部巨头发布新产品新工具，诸如微软Copilot这样的，都会提供充足的上下文。Devin显然没有做到，甚至连对程序的逻辑理解都不到位。

图片5.png

但从另一个角度来说，AI程序助手的发展经历阵痛和挫折在所难免，我们不能因此就质疑整件事情的意义。Devin的功能固然被虚假夸大了，但这并不能否认AI编程的发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作，甚至可以脱离一名真正程序员的帮助，能减少大量不需要创新的重复劳动，例如批量修改代码的命名风格，代码的依赖关系等。程序员们依然需要各类代码辅助工具的帮助，这是大势所趋。

本文系作者授权数英发表，内容为作者独立观点，不代表数英立场。
未经授权严禁转载，授权事宜请联系作者本人，侵权必究。