当天我要跟大家分享一篇很无心思的论文,标题是《Agent Workflow Memory》,也就是"Agent上班流记忆"。这篇论文提出了一种新方法,让AI助手(咱们称之为Agent)能更好地成功复杂的网页义务。
首先,咱们来聊聊这个钻研的背景。如今的AI技术曾经十分弱小了,特意是像GPT这样的大言语模型(LLM),它们可以启动对话、回答疑问,甚至可以帮咱们成功一些便捷的义务。但是,当面对复杂的、须要多个步骤才干成功的义务时,AI助手还是会遇到不少艰巨。
举个例子,假定咱们让AI助手帮咱们在网上订一张从北京到上海的机票。这个义务看似便捷,但实践上触及很多步骤:
打停航空公司网站
选用登程地和目的地
挑选适合的航班
填写乘客消息
选用座位
支付订单
关于人类来说,咱们或许曾经订过很屡次机票了,这些步骤咱们烂熟于心。但对AI助手来说,每次执行这样的义务都像是全新的体验。它或许会在某些步骤卡住,或许遗记了关键的步骤。
钻研人员发现,现有的AI助手关键有两个疑问:
钻研指标:让AI助手更痴呆
基于这些应战,钻研者提出了一个十分幽默的想法:能不能让AI助手也像人类一样,能够学习、记忆和经常使用上班流程呢?
这就是本篇论文的**指标: 开发一种方法,让AI助手能够从过去的阅历中提取出可重用的上班流程,并在未来的义务中灵敏运用这些上班流程。
钻研者们宿愿经过这种方法,AI助手可以:
那么他们是如何成功这个指标的呢?这就要说到本文的**方法了:Agent Workflow Memory(AWM),也就是"Agent上班流记忆"。
AWM的**现实:上班流记忆
Agent Workflow Memory (AWM)的**现实是让AI助手能够像人类一样,从过去的阅历中学习、记忆和经常使用上班流程。但什么是"上班流"呢?让咱们先来了解这个概念。
什么是上班流?
在AWM中,上班流(Workflow)是指成功某个义务或子义务的一系列步骤。它蕴含两个关键局部:
举个例子,假定咱们有一个"搜查产品"的上班流,它或许看起来像这样:
## 上班流形容: 在电商网站搜查特定产品上班流轨迹:1. [观察] 页面显示搜查框2. [推理] 我须要在搜查框中输入产品称号3. [举措] 在搜查框中输入"{产品称号}"4. [观察] 搜查结果页面加载成功5. [推理] 我须要检查搜查结果并选用最关系的产品6. [举措] 点击最关系的产品链接
这个上班流形容了在电商网站搜查产品的通用步骤,可以实用于多种不同的产品和网站。
AWM的上班原理
如今咱们了解了上班流的概念,让咱们来看看AWM是如何上班的。AWM的**流程包括三个关键步骤:
让咱们逐个详细了解这些步骤。
1. 上班流提取 (Workflow Induction)
在这个步骤中,AWM会从AI助手过去执行义务的阅历中提取出可重用的上班流。这个环节可以经过两种形式启动:
a) 基于规定的提取 : 经常使用预约义的规定来识别和提取经常出现的行为形式。b) 基于言语模型的提取 : 经常使用大型言语模型(如GPT)来剖析和总结义务执行环节,生成形象的上班流。
钻研者发现,基于言语模型的提取方法理论能发生更形象、更通用的上班流,因此在试验中体现更好。
上班流提取(Workflow Induction)是AWM方法的**步骤之一,论文中详细形容了两种关键的成功形式:基于规定的方法和基于言语模型的方法。咱们来深化了解一下这两种方法的详细成功细节。
1. 基于规定的方法(Rule-based Induction)
基于规定的方法关键包括两个步骤:阅历去重和有效举措过滤。
1.1 阅历去重
目的:从多个相似的义务执行阅历中提取出共同的上班流。
成功步骤:
例如,从轨迹CLICK('12') → CLICK('30') → TYPE('44', "cat") 中提取出CLICK → CLICK → TYPE。
1.2 有效举措过滤
目的:移除不可在环境中成功执行的举措步骤。
成功步骤:
例如,CLICK和TYPE举措的第一个参数必定是字符串格局的整数(代表环境中元素的ID)。
示例:输入轨迹:CLICK(12) → CLICK('12') → CLICK('30') → TYPE(44, "cat") → TYPE('44', "cat")输入上班流:CLICK('12') → CLICK('30') → TYPE('44', "cat")
2. 基于言语模型的方法(LM-based Induction)
基于言语模型的方法应用大型言语模型(如GPT)来生成更形象、更通用的上班流。
2.1 揭示工程(Prompt Engineering)
钻研者设计了不凡的揭示模板,疏导言语模型从给定的义务阅历中提取上班流。
揭示模板的关键点:
找出多个义务中重复发生的举措子集。
将每个重复子集提取为一个上班流。
每个上班流应该是罕用的子例程,至少蕴含两个步骤。
经常使用形容性变量名替代详细的输入文本或按钮字符串。
Given a list of web navigation tasks, your task is to extract the common workflows.Each given task contains a natural language instruction, and a series of actions to solve the task. You need to find the repetitive subset of actions across multiple tasks, and extract each of them out as a workflow.Each workflow should be a commonly reused sub-routine of the tasks. Do not generate similar or overlapping workflows. Each workflow should have at least two steps. Represent the non-fixed elements (input text, button strings) with descriptive variable names as shown in the example.
2.2 上班流生成
言语模型基于提供的义务阅历和揭示,生成形象的上班流。
生成的上班流理论蕴含:
环境形容:网页形态的文本形容。
推理环节:解释为什么要执行下一步举措。
详细举措:可执行的程序化举措。
示例上班流:
## 在电商网站搜查产品上班流形容:此上班流用于在电商网站上搜查特定产品。上班流轨迹:[环境形容] 页面显示搜查框。[推理] 我须要在搜查框中输入产品称号。[举措] fill('搜查框ID', '{产品称号}')[环境形容] 搜查结果页面已加载。[推理] 我须要点击最关系的产品链接。[举措] click('{最关系产品链接ID}')
3. 两种方法的比拟
钻研者发现,基于言语模型的方法理论能发生更好的结果:
但是,基于规定的方法也有其好处:
在实践运行中,钻研者关键经常使用基于言语模型的方法,由于它能发生更高品质、更通用的上班流,从而在各种测试场景中取得更好的性能。
经过这种精心设计的上班流提取环节,AWM能够从AI助手的历史阅历中学习到有用的操作形式,这些形式后续可以被用来指点AI助手更有效地成功新的义务。这就是AWM方法成果清楚的关键所在。
2. 上班流整合 (Workflow Integration)
一旦提取收上班流,AWM会将这些上班流整合到AI助手的记忆中。这个环节就像是给AI助手一本"操作手册",外面蕴含了各种经常出现义务的执行步骤。
3. 上班流经常使用 (Workflow Utilization)
当AI助手面对新义务时,它会先查阅自己的"操作手册",看看有没有实用的上班流。假设找到了关系的上班流,AI助手就会参考这个上班流来执行义务,而不是从零开局探索。
AWM的两种上班形式
AWM有两种关键的上班形式:离线形式(Offline)和在线形式(Online)。
这两种形式各有好处,钻研者在不同的试验场景中都启动了测试。
到这里,咱们曾经对AWM的**现实和上班原理有了基本的了解。在下一局部,咱们将看看钻研者是如何评价AWM的成果的,以及它在实践义务中体现如何。
AWM的试验评价
钻研者们为了片面测试AWM的成果,选用了两个关键的网页导航基准测试:WebArena和Mind2Web。这两个测试集涵盖了各种不同类型的网页义务,从便捷的消息查找到复杂的多步骤操作都有。让咱们来看看AWM在这些测试中的体现。
WebArena测试
## shopping: Browse Products in a Specific CategoryTo browse products in a specific category, I need to navigate to the relevant main category. I will start by hovering over the main category menu item to reveal the subcategories.hover(’main category id’)To browse products in the specific subcategory, I need to click on the subcategory link. click(’subcategory id’)
WebArena是一个蕴含812个网页导航义务的测试集,触及5个不同的网站,包括电子商务、社交论坛、软件开发单干平台和内容治理系统等。这个测试的特点是它可以严厉评价AI助手执行义务的配置正确性。
试验设置
钻研者经常使用了GPT-4作为基础模型,驳回AWM的在线形式(AWM Online)启动测试。这象征着AI助手在执行测试义务的环节中,会始终学习和经常使用新的上班流。
关键结果
这些结果标明,AWM不只清楚提高了义务成功的成功率,还缩小了成功义务所需的步骤数,使AI助手的操作愈加高效。
跨模板泛化才干
钻研者还专门测试了AWM在不同义务模板之间的泛化才干。结果显示,即使面对全新的义务类型,AWM依然坚持了较高的成功率(33.2%),远超基准方法(20.5%)。
Mind2Web测试
# travel: enter flight locationsGiven that you are on the flight booking page, this workflow enters the departure and destination city/airport for your flight.[link] From Departure Airport or City Your Origin − > CLICK [textbox] Origin City or Airport − > TYPE: {your-origin-city}[link] {best-popup-option} − > CLICK[link] To Destination Airport or City Your Destination − > CLICK [textbox] Destination City or Airport − > TYPE: {your-destination-city} [link] {best-popup-option} − > CLICK
Mind2Web是另一个关键的测试集,它强调了跨义务、跨网站和跨畛域的泛化才干。这个测试集蕴含了1000多个义务,触及200多个不同的网站和多个畛域(如游览、购物、社交媒体等)。
试验设置
钻研者在Mind2Web上同时测试了AWM的离线形式(AWM Offline)和在线形式(AWM Online)。
关键结果
这些结果清楚地标明,AWM在各种不同的场景下都能清楚优化AI助手的体现,特意是在跨畛域的义务中,improvement十分清楚。
结果剖析
经过这些试验,咱们可以得出以下几个关键的论断:
本文转载自,作者: