来自腾讯的钻研者们做了一个对于 agent 的scaling property(可拓展性)的上班。发现:经过便捷的采样投票,大言语模型(LLM)的性能,会随着实例化agent数量的参与而增强。其第一次性在宽泛的场景下验证了该现象的普遍性,与其余复杂方法的正交性,以及钻研了其面前的要素,并提出进一步促进scaling施展威力的方法。
论文题目:
More Agents Is All You Need
本文中,来自腾讯的钻研者发现:只有经过一种便捷的采样投票法,大言语模型的性能就会随着实例化 agent 的数量的增大而增强,出现 scaling property(可拓展性),无需复杂的多 LLM agents 单干框架以及prompt工程方法的加持。此外,该方法与现有的复杂方法正交,结合之后,可进一步增强 LLM,其增强水平与义务难度相关。
该论文做了第一个对于 raw agent(指不依赖复杂的prompt工程和单干框架的LLM agent)的 scaling property 的钻研,其对各种 LLM 基准启动了片面的试验,以验证此发现的普遍性,并钻研了可以促进其出现的战略。目前代码已开源。
▲ 多个小模型超越大模型
论文探讨了诸多集成 LLM 的相关上班,包含 LLM 自集成、异构 LLM 集成、还无对于多个 LLM Agents 单干框架的上班,并与提出的方法启动了对比,可以看出论文启动了更片面的钻研和剖析:
为了钻研大型言语模型的性能如何随着实例化 agents 数量的参与而优化。论文经常使用了一种便捷的采样和投票方法(作者用了 simple (st) 的说法,可见他们以为这个方法兴许是最便捷的方法之一)。值得留意的是,此方法可与现有的复杂方法正交结合。它可以被分为两个阶段:
论文从Llama2和 GPT 系列选用不同规模的言语模型启动评价,义务数据集涵盖推理和生成等多个畛域。试验结果标明,在一切义务和不同种类、规模的 LLM 上,发现 LLM 的性能随着实例化 agent 的数量而参与。
例如,在 GSM8K 义务上优化了 12% 至 24%,在 MATH 上优化了 6% 至 10%。幽默的是,多个小 LLM 集成可以到达甚至逾越较大 LLM 的性能。例如,多个 Llama2-13B 的集成在 GSM8K 上到达了 59% 准确率,超越了繁多 Llama2-70B 的 54% 的准确率。
进一步地,作者还探求了与其余方法的兼容性。虽然这些方法成功各不相反,然而在与之结合经常使用时,性能可以进一步优化,并雷同合乎实例化 agent 越多,性能增益越强的现象。试验结果显示增益范围从 1% 到 27% 不等,说明这个便捷的方法经过和其余方法正交经常使用可以进一步增强 LLM 的性能。
此外,论文还剖析了性能优化与疑争辩度之间的相关。
▲节点:步骤,虚线:或者的代替步骤。节点的深度:步骤的数量,色彩的强度:固有难度的水平。图示协助读者了解义务的复杂性是如何经过这些维度来权衡的。
基于此,论文提出了两种优化战略来进一步优化方法的有效性:
最后,提出了未来的上班方向,包含优化采样阶段以降落老本,并继续开发相关机制来减轻 LLM 幻觉(hallucinations)的带来的潜在负面影响,确保这些弱小模型的部署既担任任又有益。
原文链接: