大言语模型成果越好数量即力气！腾讯揭秘 Agent数量越多

koi

2024-11-15发布
关注私信

671 577 172

来自腾讯的钻研者们做了一个对于 agent 的scaling property（可拓展性）的上班。发现：经过便捷的采样投票，大言语模型（LLM）的性能，会随着实例化agent数量的参与而增强。其第一次性在宽泛的场景下验证了该现象的普遍性，与其余复杂方法的正交性，以及钻研了其面前的要素，并提出进一步促进scaling施展威力的方法。

论文题目：

More Agents Is All You Need

本文中，来自腾讯的钻研者发现：只有经过一种便捷的采样投票法，大言语模型的性能就会随着实例化 agent 的数量的增大而增强，出现 scaling property（可拓展性），无需复杂的多 LLM agents 单干框架以及prompt工程方法的加持。此外，该方法与现有的复杂方法正交，结合之后，可进一步增强 LLM，其增强水平与义务难度相关。

该论文做了第一个对于 raw agent（指不依赖复杂的prompt工程和单干框架的LLM agent）的 scaling property 的钻研，其对各种 LLM 基准启动了片面的试验，以验证此发现的普遍性，并钻研了可以促进其出现的战略。目前代码已开源。

▲ 多个小模型超越大模型

论文探讨了诸多集成 LLM 的相关上班，包含 LLM 自集成、异构 LLM 集成、还无对于多个 LLM Agents 单干框架的上班，并与提出的方法启动了对比，可以看出论文启动了更片面的钻研和剖析：

为了钻研大型言语模型的性能如何随着实例化 agents 数量的参与而优化。论文经常使用了一种便捷的采样和投票方法（作者用了 simple (st) 的说法，可见他们以为这个方法兴许是最便捷的方法之一）。值得留意的是，此方法可与现有的复杂方法正交结合。它可以被分为两个阶段：

论文从Llama2和 GPT 系列选用不同规模的言语模型启动评价，义务数据集涵盖推理和生成等多个畛域。试验结果标明，在一切义务和不同种类、规模的 LLM 上，发现 LLM 的性能随着实例化 agent 的数量而参与。

例如，在 GSM8K 义务上优化了 12% 至 24%，在 MATH 上优化了 6% 至 10%。幽默的是，多个小 LLM 集成可以到达甚至逾越较大 LLM 的性能。例如，多个 Llama2-13B 的集成在 GSM8K 上到达了 59% 准确率，超越了繁多 Llama2-70B 的 54% 的准确率。

进一步地，作者还探求了与其余方法的兼容性。虽然这些方法成功各不相反，然而在与之结合经常使用时，性能可以进一步优化，并雷同合乎实例化 agent 越多，性能增益越强的现象。试验结果显示增益范围从 1% 到 27% 不等，说明这个便捷的方法经过和其余方法正交经常使用可以进一步增强 LLM 的性能。

此外，论文还剖析了性能优化与疑争辩度之间的相关。

▲节点：步骤，虚线：或者的代替步骤。节点的深度：步骤的数量，色彩的强度：固有难度的水平。图示协助读者了解义务的复杂性是如何经过这些维度来权衡的。

基于此，论文提出了两种优化战略来进一步优化方法的有效性：

最后，提出了未来的上班方向，包含优化采样阶段以降落老本，并继续开发相关机制来减轻 LLM 幻觉（hallucinations）的带来的潜在负面影响，确保这些弱小模型的部署既担任任又有益。

原文链接：

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#云雀 #日日新 #Bard #OpenAI #GPT #Agent #LaMDA #大模型 #Sora #多模态 #通义千问 #人工自动 #开源大模型 #文心一言 #ChatGPT #AIGC运行 #LLM #紫东太初 #混元 #AIGC #AI #Copilot #悟道 #4 #孟子 #清言 #言犀 #盘古

大言语模型成果越好 数量即力气！腾讯揭秘 Agent数量越多

论文题目：

大言语模型成果越好数量即力气！腾讯揭秘 Agent数量越多