论文题目:
PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability
论文链接:
代码链接:
01 概述
1.1 背景
大言语模型(LLM)已显示出必定的布局和决策才干。应用这种才干,ReAct 将环境消息和智能体(Agent)可执行的执行提供应大言语模型,就可以应用它确定形态下须要执行的执行。
但是,ReAct 系统理论生成繁多、间接的因果推理门路,这限度了它在具有复杂因果相关的义务中的有效性。以 TOT、GOT 和 RAP 为代表的一系列推理指点范式,它们准许在每一步生成多种或者的执行,并依据多个环境反应结果和选用战略选择下一步门路。
只管这种方法提高了 agent 处置复杂因果相关的才干,但在实在环球的场景中,在同一状况下执行多个执行往往是不事实的。所以须要一种在每轮中仅生成一种执行但能够处置多样、复杂推理的智能体框架。
处置预测与实践结果之间的差异往往有助于人们扩展思想环节和启动反思,从而促成推理朝着正确的方向开展。受迷信钻研的环节和义务导向对话中有关预测未来的钻研成绩的启示,咱们提出了一个将预测、推理和执行融为一体的 agent 推理框架——PreAct。
应用预测提供的消息,基于大言语模型的 agent 可以提供更多样化、更具战略导向性的推理,进而发生更有效的执行,协助 agent 成功复杂的义务。
咱们在 AgentBench 中的 HH、OS、DB、LTP 等数据集上启动了少量的试验,试验标明 PreAct 在成功复杂义务方面优于 ReAct 方法,且可以与 Reflexion 结合,进一步增强 agent 的推理才干。
咱们用不同数量的历史预测对模型启动提醒,发现历史预测对 LLM 布局有继续的正向影响。PreAct 和 ReAct 在单步推理上的差异标明,PreAct 在多样性和战略方向性方面确实比 ReAct 更有长处。
02 方法
2.1 前置常识
2.1.1 Agent与Enviroment
举措和观察结果造成了 agent 与环境交互的环节。关于处于步骤的代理, agent 将依据历史消息、上次观察结果及其执行战略采取举措。
选择要采取的举措后,agent 将在环境中执执行作,并经过环境战略取得新的观察结果。关于 LLM 代理来说,它只能控制和的构建。因此,LLM agent 的目的就是设计出高效的和。
2.1.2 ReAct
ReAct 是一项面向 LLM agent 的开创性上班,它结合了思索、执行和观察。ReAct 经常使用作为和一组作为。应用 LLM 的布局才干,ReAct agent可以探求环境并逐渐处置疑问。
2.1.3 Reflexion
Reflexion 是一种长时记忆战略,用于提高 agent 中的品质。以 ReAct 的 Reflexion 为例,假设义务失败,LLM 会被要求启动反思,比如。一旦启动了反思,就会更新为。这种战略可以提醒 LLM 一些消息,协助它防止一些决策失误。
PreAct 的框架如图 1 所示。它与 ReAct 有两点不同:关于局部,PreAct 会在每一步中要求 LLM 生成对未来观察的预测和相应的应答措施,并依据预测观察与实践观测之间的差异提醒 LLM 反思或扭转其方案方向。
经过这种提醒,可以提高 LLM 所做方案的多样性和战略导向性。关于局部,PreAct 会在其中参与对未来观察的预测。只管 PreAct 提高了 LLM 的思索和方案才干,但还有两个疑问有待探求:
(1)PreAct 能否能与 Reflexion 结合经常使用并进一步优化效果?
(2)预测的效果是终身性的,还是只能影响下一轮?
基于这两个疑问,咱们思索了 3 种形式:
1. 终身形式:一切预测都将保管在终身历史中,如:
2. 即时形式:只要最后一次性预测会保管在即时历史中,如:
3. 反思形式:反射和一切预测都将保管在历史记载中,如:
03 试验
咱们的试验旨在处置以下钻研疑问(RQs)。
3.1 试验设置
咱们在 AgentBench 中的 HH、OS、DB 和 LTP4 4 个不同的子数据集上对 PreAct 启动了评价。咱们经常使用 GPT3.5 和 GPT4 作为 agent 的 LLM。更多的试验设置和一切提醒词都能在论文附录中找到。
表 1 列出了 PreAct 和 ReAct 在 Permanent 和 Reflexion 两种不同设置下,在四个数据集上的功能体现。
在 HH 义务中,PreAct 比 ReAct 提高了约 20%。在 OS 和 DB 义务中,在 Permanent 设置下,PreAct 的平均功能相比 ReAct 区分提高了 12% 和 6%,在 Reflexion 设置下,Preact的功能相比雷同采取了 Reflexion 的 React 区分提高了 5% 和 8%。在 LTP 情形下,PreAct 的结果与仅 Act 的结果相似,这或者是因为 GPT 的安保机制造成其屡次拒答,从而缩小了有效的探求步骤。
总的来说,在大少数状况下,PreAct 都优于 ReAct,在某些目的上甚至超越了带 Reflexion 的 React。此外,在 PreAct 的基础上运行 Reflexion 还能继续优化模型功能。这标明,先验义务消息和观察预测可以独特提高 LLM 的布局和决策才干。
依据咱们的假定,PreAct 可增强推理的多样性和战略方向性,从而提高 LLM 的布局才干。在本节中,咱们将钻研这两个促成要素。
3.2.1多样性
图 2 展现了 PreAct 和 ReAct 在 HH、OS 和 DB 数据集上的多样性比拟。咱们向 GPT-4 输入了两条蕴含思索和执行的轨迹,要求它在 0 到 100 的范畴内对每条轨迹打分。
图表显示,在任何给定的数据集上,至少有 45% 的实例显示出 PreAct 的推理多样性优于 ReAct,而相反的状况则不超越 34%。这标明,经常使用 PreAct 可以清楚提高推理多样性,从而扩展推理空间,拓宽或者执行的范畴。
3.2.2 战略方向性
咱们选用 Alfworld 义务来剖析战略方向性。关于每条轨迹的每一轮,咱们都向模型提供 ground truth、截至本轮次的一切思索和执行,同时去除一切预测。而后,咱们要求 GPT-4 对其战略方向性启动评分,分数范畴为-1 ∼ 3。战略方向性的评价目的如下:
其中,为样本,为一轮思索和执行,为评分器。如表 2 所示,PreAct 的战略方向性得分比 ReAct 高出至少 20%。这标明 PreAct 在确定布局方向方面更胜一筹。
3.2.3 相关性钻研
图 5 显示了在 HH 数据集上,多样性、战略方向性和成功率之间的相关,提醒了成功率与这两个目的之间的正相关相关。此外,战略方向性与成功率的相相关数区分为 99.8%(Dev)和 99.3%(Test),而多样性与成功率的相相关数区分为 83.7%(Dev)和 91.2%(Test)。
3.2.4 案例剖析
图 3 显示了 PreAct 和 ReAct 在 DB 和 HH 数据集上的局部轨迹。只管 PreAct 和 ReAct 在这两个数据集的初始执行阶段都发生了失误,但 PreAct 可以借助预测纠正失误,而 ReAct 则不能。
在 DB 数据集中,ReAct 和 PreAct 在第一轮中都经常使用了相反的失误列名。PreAct 经过验证明际列名纠正了这一失误,而 ReAct 则重复经常使用了失误的列名。Pre Act 对查问和更正列名的思索反映了其推理的多样性。
在 HH 义务中,ReAct 审核完冰箱后,与冰箱内的物体启动了互动,这与义务有关,而 PreAct 则预测到了 "冰箱内没有生菜 "的条件,并依据 Pred 3 中的预测结果,指点其在其余中央找到生菜,最终成功了义务。这种从新考量生菜的或者位置而不是继续在冰箱左近寻觅的选择标明,PreAct 具有更好的战略方向性。
3.2.5 历史预测影响范畴
图 4 展现了不同数量的预测历史对 LLM 推感功能的影响。在 HH、OS 和 DB 数据集上启动的试验标明,参与预测历史的保管量可以提高成功率。
以 PreAct(GPT4)为例,3 种设置下义务的成功率在 HH 中区分为 66%、70%、74%;在 OS 中区分为 40.9%、42.3%、43.1%;在 DB 中区分为 50%、51%、51.3%。这些发现标明,历史预测对模型的推理才干有继续的正向影响。但是,在 LTP 数据集上,更多的历史数据会造成更高的拒答概率,进而造成终身形式下的 Preact 功能降低。
04 论断
本文中,咱们引见了一个便捷却有效的 agent 推理框架——PreAct,它应用预测来增强布局的多样性和战略方向性,从而提高 agent 成功义务的才干。这种增强是继续性的,它独立于 Reflexion,并将随着历史预测的积攒而始终提高。基于 PreAct 的钻研结果,咱们提出了两个评价布局的目的,这或者有助于在未来的上班中为强化学习设置环节级的鼓励函数,以训练出更弱小的 agent。
原文链接: