ECI@创新科技 | ChatGPT之后的四大LLM趋势及其对AI开发者的影响(上)
ECI @HiTech开栏语
【ECI @科技创新】是由ECI@HiTech科技创新专委会每周从全球精选热门科技创新主题,帮助科技创新者和初创团队取得成功!让我们共同携手,寻找改变现有游戏规则的科技创新,激发人类的智慧和挑战,实现科技的创新和梦想。这就是科技创新的终极魅力!也是ECI”将创新带入生活Bring Innovation to Life” 的使命所在!
通常来说,科技的发展都会交替经历平台期和爆发期。平台期的科技创新更多聚焦于识别并解决客户现在的痛点,而爆发期的科技创新更多聚焦于引领并创造客户未来的需求,划时代的伟大科技创新往往诞生于此。
随着ChatGPT等大型语言模型(LLM)的迅速发展和普及,AI开发者们正面临着前所未有的挑战和机遇。在这个充满变革的时代,它们将对AI开发者产生深远的影响。
截至2023年5月的流行LLM(按提及量)的评选。提及量、趋势和下游任务的适用性是从包括商业媒体、一般新闻、AI博客和科学出版物的超过50万份AI相关在线文档的语料库中计算得出的。任务适用性是使用语义嵌入和模型与NLP任务之间的潜在关联强度计算得出的。
2022年10月,我们发表了一篇关于选择特定NLP用例的文章,例如会话、翻译和总结。自那以后,人工智能取得了巨大进步,在本文中,我们将回顾过去几个月的一些趋势以及对人工智能开发者的影响。具体而言,我们将讨论自回归模型的任务选择,商业和开源LLM之间的不断发展的权衡,以及LLM的集成和生产中故障的缓解。
生成式人工智能推动自回归模型,而自编码模型则在等待时机
对于许多人工智能公司来说,ChatGPT似乎已经成为了不可忽视的最终竞争对手。早些时候,当向客户推销我的分析创业公司时,我们经常面临这样的挑战:“如果谷歌、脸书、阿里巴巴、Yandex等大公司也在拐角处做同样的事情,你会怎么做?”如今,最常见的问题则是:“为什么你不能用ChatGPT来做这件事?”
简单地说就是:ChatGPT在很多方面都很棒,但它还没有涵盖人工智能的全部范围。目前的炒作明显是围绕着生成人工智能进行的——而不是分析人工智能,或者是相当新的合成人工智能分支。这对LLM来说意味着什么?LLM可以用三个目标进行预训练,即自回归、自编码和序列到序列。通常,一个模型会针对其中一个目标进行预训练,但也有例外,例如UniLM是针对所有三个目标进行预训练的。过去几个月推广AI的有趣的生成性任务是对话、回答问题和生成内容。模型确实学习“生成”下一个标记、句子等的任务。这些任务最好由自回归模型执行,包括GPT家族以及大多数最新的开源模型,如MPT-7B、OPT和Pythia。自动编码模型更适合于信息提取、提炼和其他分析任务,它们处于后台——但我们不要忘记,2018年LLM的最初突破发生在自动编码模型BERT上。虽然这对现代人工智能来说可能是石器时代,但自动编码模型对于许多B2B用例尤其重要,这些用例的重点是提取针对特定业务任务的简洁见解。我们或许会目睹围绕自动编码和新一代LLM的另一波浪潮,这些新一代LLM擅长提取和合成信息以用于分析目的。
对于开发人员来说,这意味着流行的自回归模型可以用于内容生成的所有方面——内容越长越好。然而,对于分析任务,您应该仔细评估您使用的自回归LLM是否将输出满意的结果,否则应考虑使用自编码模型或更传统的NLP方法。
开源与营利性组织竞争,刺激了LLM效率和规模的创新
在过去的几个月里,关于开源和商业人工智能之间的不稳定关系,已经有了很多争论。从短期来看,开源社区无法在这场竞赛中保持领先,因为要想获胜,就必须在数据和/或计算上投入巨资。但从长远来看,即使是像谷歌和OpenAI这样的大公司也感受到了开源的威胁。在这种紧张局势的推动下,两个阵营都在继续建设,由此产生的进步最终汇聚成富有成效的协同效应。开源社区非常注重节俭,即通过少花钱多办事来提高LLM的效率。这不仅使LLM能够为更广泛的用户群提供服务。我们认为,从环境的角度看,AI的民主化是更加可持续的。有三个主要维度,可以让LLM更高效:
减少计算和内存:例如,与标准注意力算法相比,FlashAttention[4]允许减少GPU上的读取和写入次数,从而加快内存效率的微调。减少参数:在标准微调中,所有模型权重都需要重新训练-但是,在大多数情况下,只有一小部分权重会影响模型在微调数据上的性能。参数高效的微调(PEFT)识别出这一子集并“冻结”其他权重,从而可以大大减少资源使用量,同时实现模型更稳定的性能。
减少参数:在标准微调中,所有模型权重都经过重新训练——然而,在大多数情况下,只有一小部分权重会影响模型在微调数据上的性能。参数高效微调(PEFT)识别这个子集并“冻结”其他权重,这可以大大减少资源使用量,同时实现更稳定的模型性能。
减少训练数据:数据质量的比例要高于数据量——训练数据越集中和精心策划,优化性能所需的数据就越少。最成功的方法之一就是指令微调。在训练过程中,LLM提供了针对特定任务的指示,这些指示反映了推理过程中最终会如何提示。缩小训练空间,使人们能够从更少的数据中更快地学习。指令微调已经实践了一段时间,例如在T0、FLAN、InstructGPT中,最终它也是ChatGPT的基础方法。
另一个极端是,目前,“生成式人工智能控制掌握在少数能够负担大规模训练和部署模型的资金的人手中”。商业产品的规模正在爆炸式增长——无论是模型规模、数据规模还是训练时间——在输出质量方面显然超过了开源模型。这里没有太多技术上的报告,相反,人们更关心治理和监管方面的问题。因此,“一个关键风险是,像GPT这样强大的LLM只会朝着适合这些公司商业目标的方向发展。”
这两个目标将如何实现,它们最终会实现吗?一方面,任何可以减少资源消耗的技巧最终都可以通过投入更多资源来再次扩大规模。另一方面,LLM培训遵循幂律,这意味着学习曲线随着模型大小、数据集大小和培训时间的增加而趋于平缓。你可以用人类教育的类比来思考这个问题——在人类的一生中,上学的时间增加了,但普通人的智力和博学程度是否也随之提高了呢?
人工智能学习曲线趋平的积极影响在于,它缓解了人们对于其逐渐比人类更加“强大、聪明”的恐慌情绪。但请做好准备,法学硕士的世界充满了惊喜,而其中最不可预测的之一便是爆发式的成长。所谓爆发式,指系统内发生定量的改变引发了行为上的定性的变化——即“量变带来质变”,或简单地说,“更多则意味着不同”。在他们训练的某些时刻,法学硕士似乎获得了不在最初训练范围之内的意料之外的新能力。目前,这些能力以新的语言技能的形式出现——例如,模型不仅仅是生成文本,而是突然学会了总结或翻译。预测这种情况何时会发生以及新功能的性质和范围是不可能的。因此,这种现象虽然对研究人员和未来学家来说很有吸引力,但远没有在商业环境中提供可观价值。
随着越来越多的方法被开发出来,提高了LLM微调和推理的效率,开源LLM的物理运行周围的资源瓶颈似乎正在放松。由于商业LLM的使用成本高且配额有限,越来越多的公司考虑部署自己的LLM。然而,开发和维护成本仍然存在,并且大多数所述优化还需要扩展技术技能,以便对部署它们的模型和硬件进行操作。在开源和商业LLM之间进行选择是一个战略性的选择,应该在仔细考察成本(包括开发、运营和使用成本)、可用性、灵活性和性能等一系列权衡后进行。一个常见的建议是,先从大型商业LLM开始,快速验证你最终产品的商业价值,并在之后的开发中“转换”为开源产品。但这种转变可能很困难,甚至不现实,因为LLM擅长的任务大相径庭。有可能开源模型不能满足已经开发好的应用程序的需求,或者需要做大量修改来减轻相关的权衡。最后,对于在LLM上构建各种功能的公司而言,最先进的设置是多LLM架构,该架构允许利用不同LLM的优势。
LLM正在通过插件、代理和框架进行操作
LLM培训的巨大挑战已经基本解决,另一个工作分支的重点是将LLM集成到现实世界的产品中。除了提供现成的组件以增强开发人员的便利性之外,这些创新还有助于克服LLM的现有局限性,并为其增加推理和使用非语言数据等附加功能。其基本思想是,虽然LLM已经很擅长模仿人类的语言能力,但它们仍然需要被置于更广泛的计算“认知”环境中,以进行更复杂的推理和执行。这种认知包括许多不同的能力,如推理、行动和观察环境。基础:目前,它是使用插件和代理进行近似的,这可以通过模块化LLM框架来进行组合,例如LangChain、LlamaIndex和AutoGPT。
插件提供对外部数据和功能的访问
预训练的LLM在使用数据方面存在重大实际限制:一方面,数据很快就过时了,例如GPT-4虽于2023年发布,但其数据截至于2021年。另一方面,大多数现实世界的应用需要对LLM中的知识进行一些定制。考虑构建一个应用程序,允许您创建个性化的营销内容——您可以向LLM提供更多有关产品和特定用户的信息,效果会更好。插件使这成为可能——你的程序可以从外部源获取数据,比如客户电子邮件和呼叫记录,并将其插入提示,以便得到个性化、受控的输出。
言行一致
语言与行动紧密相连。我们的交际意图往往围绕行动,例如当我们要求某人做某事或拒绝以某种方式行动时。计算机程序也是如此,可以看作是执行特定操作的函数集合,当某些条件不满足时会阻止它们等等。基于LLM的代理将这两个世界结合在一起。这些智能体的指令并非用编程语言硬编码,而是由LLM以推理链的形式自由生成,从而实现给定的目标。每个代理都有一组插件,可以根据推理链的要求进行调整——例如,他可以结合一个搜索引擎来检索特定信息,并结合一个计算器来对这些信息进行后续计算。代理的概念在强化学习中已经存在了很长时间——然而,截至今日,强化学习仍然发生在相对封闭和安全的环境中。在LLM的广泛常识的支持下,代理现在不仅可以冒险进入“大世界”,还可以利用无穷的组合潜力:每个代理都可以执行多个任务来实现目标,多个代理可以相互交互和协作。此外,智能体从与世界的交互中学习,并建立了一种比LLM的纯语言记忆更接近人类多模态记忆的记忆。
框架为LLM集成提供了便捷的接口
在过去的几个月里,我们看到了一系列基于LLM的新框架,如LangChain、AutoGPT和LlamaIndex。这些框架允许将插件和代理集成到复杂的代和操作链中,以实现包括多步推理和执行在内的复杂过程。开发人员现在可以专注于高效的快速工程和快速应用程序原型。目前,使用这些框架时仍有大量硬编码,但它们可能会逐渐演变为一个更全面、更灵活的认知和行动建模系统,例如Yann LeCun提出的JEPA架构。
这些新组件和框架对构建者有什么影响?一方面,它们通过利用外部数据和机构来增强LLM的潜力。框架结合便利的商业LLM,已经将应用程序原型设计变成了几天的事情。但LLM框架的兴起也对LLM层产生了影响。现在它隐藏在一个额外的抽象之后,并且和任何抽象一样,它需要更高的意识和纪律才能以可持续的方式得到利用。首先,在开发生产时,仍需要一个结构化的流程来评估和选择特定的LLM来完成手头的任务。
目前,许多公司假设OpenAI提供的最新模型是最合适的,因此跳过了这一过程。其次,LLM的选择应与所需的智能体行为相协调:所需的行为越复杂和灵活,LLM的性能就越好,以确保它在广泛的选择空间中选择正确的行动。最后,在操作中,MLOps管道应确保模型不会偏离不断变化的数据分布和用户偏好。
注:本文内容转载于Towards Data Science文章:
Four LLM trends since ChatGPT and their implications for AI builders
https://towardsdatascience.com/four-llm-trends-since-chatgpt-and-their-implications-for-ai-builders-a140329fc0d2
目前,2023 ECI Awards(艾奇奖)正在征赛中,同时,我们在与参赛者的日常交流中,也收到了许多关于比赛的询问。为了提升参赛者的体验,ECI组委会将之前在征赛过程中,已经发布的关于各类常见问题和关键信息等内容,整理了一份参赛答疑必备手册(请点击链接进行了解:ECI Awards 2023丨精彩纷呈!全面掌握报奖流程与技巧!)我们鼓励各位参赛者能够认真准备作品,并祝愿大家在比赛中斩获佳绩!点击下方链接进行报赛:
ECI Media官方媒体矩阵
联系我们
转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必究。
未经授权严禁转载,授权事宜请联系作者本人,侵权必究。
本文禁止转载,侵权必究。
授权事宜请至数英微信公众号(ID: digitaling) 后台授权,侵权必究。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)