ECI@创新科技 | ChatGPT之后的四大语言模型及其对AI开发者的影响(下)

转载 收藏 评论
举报 2023-08-23


ECI @HiTech开栏语


【ECI @科技创新】是由ECI@HiTech科技创新专委会每周从全球精选热门科技创新主题,帮助科技创新者和初创团队取得成功!让我们共同携手,寻找改变现有游戏规则的科技创新,激发人类的智慧和挑战,实现科技的创新和梦想。这就是科技创新的终极魅力!也是ECI”将创新带入生活Bring Innovation to Life” 的使命所在!


通常来说,科技的发展都会交替经历平台期和爆发期。平台期的科技创新更多聚焦于识别并解决客户现在的痛点,而爆发期的科技创新更多聚焦于引领并创造客户未来的需求,划时代的伟大科技创新往往诞生于此。


随着ChatGPT等大型语言模型(LLM)的迅速发展和普及,AI开发者们正面临着前所未有的挑战和机遇。在这个充满变革的时代,它们将对AI开发者产生深远的影响。


LLM的语言界面为人机交互带来了新的挑战


随着提示技术的不断进步,非专业人员也可以利用人工智能创造出令人惊叹的、富有创意的作品。无需编程技能,只需借助人类天然的交流工具——语言,来告诉机器应该如何运作。然而,尽管利用大型语言模型(LLM)进行快速原型设计和实验的热潮令人兴奋,但我们也需要认识到,用LLM很容易制作出令人眼前一亮的作品,但要让这些作品具备生产就绪的水平,则是相当具有挑战性的。

在生产过程中,LLM可能会对不完美的即时设计非常敏感,并且会对治理、安全和预期结果的一致性产生一些问题。然而,我们最欣赏LLM的一点是,它的输入和输出空间具有开放性的特点。然而,这一特性也使得在将它们部署到生产环境之前,测试潜在的故障变得更加困难。

  • 幻觉与无声的失败

如果你曾经构建过AI产品,你就会知道最终用户对AI故障往往非常敏感。用户容易产生“消极偏见”:即使你的系统达到了很高的整体准确率,那些偶尔发生但不可避免的错误情况也会被放大镜仔细审查。LLM的情况则不同。与其他复杂的人工智能系统一样,LLM也会失败,但它们会以无声的方式失败。即使他们手头没有好的回应,他们仍然会产生一些东西,并以非常自信的方式展示出来,欺骗我们相信并接受他们,并让我们陷入进一步尴尬的境地。想象一个多步骤代理,其指令由LLM生成——第一代中的错误将会级联到所有后续任务,并破坏代理的整个动作序列。

LLM最大的质量问题之一是幻觉。幻觉指的是生成语义或句法上合理但事实上不正确的文本。诺姆·乔姆斯基(Noam Chomsky)已经用他著名的句子“无色的绿色思想疯狂地沉睡”表明了一个观点:从语言学的角度来看,一个句子可以是完全合乎语法的,但对人类来说却完全荒谬。然而,对于LLM来说并非如此,它们缺乏人类所拥有的非语言知识,因此无法将语言置于潜在世界的现实中。虽然我们可以立即发现乔姆斯基句子中的问题,但是一旦进入我们专业领域之外的更专业的领域,对LLM输出的事实核查就变得非常麻烦。对于长篇内容以及不存在基本事实的交互(例如预测和开放式科学或哲学问题)而言,未被检测到的幻觉的风险特别高,产生幻觉的方法有很多。从统计学的角度来看,我们可以预期,随着语言模型学习的增加,幻觉会减少。但在商业环境中,这种“解决方案”的增量性和不确定性使其相当不可靠。另一种方法植根于神经符号AI。通过结合统计语言生成和确定性世界知识的力量,我们或许能够减少幻觉和无声故障,最终使LLM适用于大规模生产。例如,ChatGPT通过整合Wolfram Alpha实现了这一承诺,Wolfram Alpha是一个庞大的结构化数据库,收集了世界知识。

  • 面临的提示挑战

从表面上看,由提示所提供的自然语言接口似乎缩小了AI专家与普通人之间的差距。毕竟,我们所有人都至少懂一种语言,并用它来交流。那么,为什么不用LLM来做同样的事情呢?但提示是个不错的办法,除了一些琐碎的问题。成功的提示不仅需要强大的语言直觉,还需要掌握LLM如何学习和工作的知识。设计成功的提示的过程是高度迭代的,需要进行系统的实验,人类努力维持这种严格的秩序。我们往往根据根植于人际互动经验的期望来设计提示。

与人交谈与与机器翻译交谈是不同的——当我们相互交流时,我们的输入是在丰富的情景语境中传递的,这使得人类语言的不精确性和模糊性得以中和。法学硕士只能获得语言信息,因此更不容易原谅。另一方面,很难采用系统的方法进行提示工程,所以我们很快就会进行机会主义的试错,从而难以构建可扩展且一致的提示系统。

要解决这些挑战,有必要教育工程师和用户了解LLM的学习过程和失败模式,并保持对界面中可能出现的错误的认识。应该清楚的是,LLM的输出总是一件不确定的事情。例如,这可以通过在用户界面中使用置信度得分来实现,这些置信度可以通过模型校准得到。对于即时工程,我们目前看到了LLMOps的兴起,这是MLOps的一个子类别,允许通过即时模板化管理即时生命周期。最后,微调在一致性方面胜过了少数几次学习,因为它消除了临时提示的可变“人为因素”,丰富了LLM的固有知识。一旦积累了足够的训练数据,应考虑尽可能地将训练过程由提示调整为精细调整。

总结

随着每天都有新的模型、性能黑客和集成,大型语言模型的兔子洞每天都在加深。对于公司来说,保持差异化很重要,要密切关注最近的发展和新风险,并倾向于亲身体验而不是炒作——许多与大型语言模型有关的权衡和问题只有在现实世界使用中才能显现出来。在本文中,我们研究了最近的发展以及它们如何影响与大型语言模型一起构建。大多数现有LLM是自回归模型,擅长处理生成型任务。他们对分析任务来说可能是不可靠的,在这种情况下,自动编码LLM或其他NLP技术应该是首选的。开源LLM和商业LLM之间存在很大差异,在LLM之间切换可能比看起来要困难。仔细考虑各种利弊,评估可能的开发路径(从开源开始,然后转向商业),如果产品的不同功能依赖于LLM,则考虑进行多LLM设置。

框架提供了一个方便的界面,用于构建LLM,但不要低估LLM层的重要性--LLM应该经历一个实验和谨慎选择的过程,然后再进行全面的MLOps循环,以确保健壮的、不断优化的运行,并缓解诸如模型转换等问题。

建造者应该积极主动地管理人为因素。LLM征服了语言,这是一个最初只有人类才能接触到的认知领域。作为人类,我们很快就会忘记LLM仍然是“机器”,并且无法像机器那样操作它们。对于用户和员工,考虑如何提高他们的意识,并教育他们正确操作和使用LLM。

注:本文内容转载于Towards Data Science文章:

Four LLM trends since ChatGPT and their implications for AI builders


https://towardsdatascience.com/four-llm-trends-since-chatgpt-and-their-implications-for-ai-builders-a140329fc0d2






目前,2023 ECI Awards(艾奇奖)正在征赛中,同时,我们在与参赛者的日常交流中,也收到了许多关于比赛的询问。为了提升参赛者的体验,ECI组委会将之前在征赛过程中,已经发布的关于各类常见问题和关键信息等内容,整理了一份参赛答疑必备手册(请点击链接进行了解:ECI Awards 2023丨精彩纷呈!全面掌握报奖流程与技巧!)我们鼓励各位参赛者能够认真准备作品,并祝愿大家在比赛中斩获佳绩!

ECI Media官方媒体矩阵



联系我们




本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
本文系作者授权数英发表,内容为作者独立观点,不代表数英立场。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本内容为作者独立观点,不代表数英立场。
本文禁止转载,侵权必究。
本文系数英原创,未经允许不得转载。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    DIGITALING
    登录后参与评论

    评论

    文明发言,无意义评论将很快被删除,异常行为可能被禁言
    800

    推荐评论

    暂无评论哦,快来评论一下吧!

    全部评论(0条)

    发布者
    ECI Awards

    ECI Awards

    上海 黄浦区

    蒙自路169号智造局一期2号楼201-203室