前些时日,AI 大模型开局掌握操作计算机的才干,但全体而言,它们与物理环球互动的才干仍处于早期阶段。
为了提高 LLM 在复杂的事实环球中的体现,钻研者们提出了各种揭示战略来优化大模型的推理和布局才干,比如思想链、思想树和思想图谱。这些提高与工具集成一同,推进着通用 AI 智能体的开展,让它们如今曾经能够用 LLM 输入的决策战略来处置序列决策疑问(不过依然还相对繁难)。
在事实环球中,一个难题的处置打算往往都不是孤立存在的,而要求系统性的方法。这就促使人们开局钻研如何让 LLM 经过顺序或并行模块处明智能体义务,从而灵活地、分步骤地处置疑问。
近日,华为诺亚方舟试验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个钻研团队在这个钻研方向上做出了自己的奉献。他们驳回第一性原理方法,将数据的剖析、处置和预测(即数据迷信)作为 LLM 与事实环球环境和外部系统交互的**和可迁徙技艺,获取了一种应用 LLM 处置系统数据迷信义务复杂性的新方法。而后他们基于此开发了智能体 Agent K v1.0,并让其参与了多模态 Kaggle 竞赛。 最终 Agent K v1.0 取得了相当于 6 金 3 银 7 铜的效果,成为首个到达 Kaggle Grandmaster level 1 的 AI 智能体。
这项钻研有三个钻研动机。
第一, 数据迷信的目的是从结构化和非结构化数据中提取见地和常识 ,从而处置各种复杂疑问。这要求系统级的方法,要求智能化和优化来顺应详细的义务目的。
举个例子,在 Kaggle 数据迷信竞赛中(如图 1 所示),数据迷信家要求遵照一个结构化的上班流程:搜集、清算、预处置和规范化数据,创立数据加载器以成功高效治理,生成关键评价目的,以及开发自定义模型。而后,这些见地和预测可认为决策和优化提供消息。因此,为了处置这些上班流程,要求数据迷信智能体将义务合成为子疑问并与各种子系统交互以成功指定目的。
数据能让 LLM 感知和了解外部环境 (物理和虚构皆可)。LLM 智能体可经过搜集、清算和剖析这些数据来取得无心义的见地并做出明智的决策。数据和举措之间的这种基本咨询可将计算推理与有形的事实环球结果咨询起来。
数据迷信对企业而言至关关键。 数据迷信可将原始数据转换成可执行的见地,并由此优化效率和竞争力,进而推进翻新。因此,据 Grand View Research 估量,到 2031 年,环球对数据迷信的投资将到达约 7 亿美元。数据迷信智能体可经过生成代码来智能执行数据清算、建模和预测等义务,从而扩展这种影响,使组织能够扩展其数据驱动的决策,以最大化报答和利润。
结构化推理培育弱小数据迷信智能体
华为诺亚方舟试验室首先确定了 LLM 智能面子临的两大难题,即智能化和优化。这些难题源自数据迷信上班流程的复杂性和多面性。
为此,该团队提出了一种应用 LLM 处置系统数据迷信义务复杂性的新方法。
详细来说,他们提出了一种灵敏的「学习到推理」范式,从而无需反向流传和微调就能成功学习和顺应。
该团队假定 LLM 具有固有的基于案例的推理才干,这让它们可经常使用过去的正例或负例阅历,并将其泛化到新义务。经过优化这些阅历,学习和顺应可以人造地出现。
为了将这一观察应用起来,该团队提出了 ,其中集成了一个记忆模块,从而可以灵活地利用过去的成功和失败阅从来成功更据顺应性的学习。这能克制思想链等方法的局限性。如图 2 所示。
左侧是基本思想链推理,其按顺序生成两边步骤,其中每个步骤都是下一步骤的间接条件,直到获取最终答案。
右侧是新提出的结构化推理方法,它引入了一个记忆模块(作为 RAG 或长高低文的一种方式),可以依据外部鼓励和反应启动优化。该模块可依据环境反应灵活地修正存储的内容,让智能体可在不扭转底层 LLM 参数的状况下学习和顺应,进而依据详细目的最大限制地提高性能(有效性和智能化)。
有了却构化推理之后,LLM 智能体可在外部重构自身,经过灵敏和外在的(智能体外部的)自我反思配置成功被动推理,并在采取外部执行之前被动顺应。
他们将这个智能体称为 ,这是他们的结构化推理框架 Pangu-Agent 的一个扩展,但它也是专门为应答数据迷信应战设计的。
该团队为 Agent K v1.0 引入了新的外部函数类别,以便在智能处置数据迷信义务之前智能设置它们。他们还引入了另一组可与外部工具(如超参数优化算法、集成方法、计算机视觉和人造言语处置库)单干的外部函数,从而可以最佳方式构建解答。
下图展现了 Agent K v1.0 成功智能设计、编程和执行所需的全体数据迷信上班流程:首先从一个 Kaggle URL 开局,再生成执行代码清算、特色工程、模型创立和优化训练的复杂代码,之后再智能生成一个提交文件,并将其提交给 Kaggle 以取得分数。
第一阶段(智能化):设置数据迷信义务
由于数据迷信义务的数据类型和格局单一,因此设置阶段并不轻松。图 4 展现了这个智能设置阶段的关键步骤。
在抓取到义务后,该战略又分为两个阶段:
第二阶段(优化):处置数据迷信义务
数据迷信上班流程的这一局部通常触及许多步骤,包含生成脚本以预处置输入、创立各种模型或优化超参数。
由于可以启动屡次尝试,并且每个处置打算都是复合上班流程的结果,因此要成功十分有竞争力的性能,要求能够推断每个处置打算组件的长处和劣势,并选择修正哪个局部或下一步尝试什么。
在这里,该经过智能体的外部举措将这些选择留给了智能体,并经常使用针对数据驱动的预测设计量身定制的几种工具为其提供允许。
第三阶段(泛化):多义务和被动义务选用
有效的智能体应该有才干处置不同畛域的多种义务。该团队还为 Agent K v1.0 装备了跨畛域的义务求解才干,其做法是将之前的设置泛化到多义务设置。并且,他们留意到了多义务处置打算的无法行性,于是还提出了一种在线继续学习扩展。
下图展现了 Agent K v1.0 智能体的总体设计。
依照 Kaggle 的设置,Agent K v1.0 只要求人造言语形容和非规范化原始数据即可成功成功义务。在每一轮 j 中,它会依据之前尝试过的义务的历史记载被动选用要处置的数据迷信义务,并将其填充到随期间变动的向量数据库 RAG_j 中。这种选用是战略 π_1 (・) 基于 RAG_j 和一个残余义务池执行的。
选用了义务之后,Agent K v1.0 会经常使用 π_setup (・) 智能执行规范化、清算义务数据、 预备训练和测试目的等操作。这个环节雷同基于 RAG_j。
设置成功后,Agent K v1.0 就会尝试处置义务,这个环节会访问工具并依据分数反应启动改良。这些 Python 日志会对 RAG_j 启动更新,偏重复此环节。
的数据迷信智能体不足竞争性基准测试,这限制了它们在专业畛域的体现。为此,该团队也做出了自己的奉献:基于 Kaggle 竞赛构建了一个多样化且竞争性的数据迷信基准,而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超越 7.7K 个预训练机器学习模型和大概 27K 场较量。
该基准允许在一个透明的排行榜上与人类介入者启动间接比拟并涵盖计算机视觉、人造言语处置、期间序列和表格数据等多种义务,允许多种模态。
下图展现了该基准中 Kaggle 义务的散布状况。目前,其中 55% 是表格义务,包含数值、类别、字符串和布尔值表。另外计算机视觉站 24%,人造言语处置占 10%、多模态义务占 11%。
下表则是基于 Kaggle 的指南微格调构建的 Kaggle 停顿系统。⋆ (Top 10 + 0.2 %) 是指竞赛每参与 500 个参赛队伍,就会额外给出一枚金牌。举个例子,假设一个竞赛有 500 个参赛队伍,则会给 11 团队授予金牌。而假设竞赛队伍有 5000 个,则金牌数会到达 20。
Agent K 体现如何?到底还需看试验结果。该团队严厉测试了 Agent K v1.0(基础模型经常使用了 Qwen-2.5 72B)成功齐全智能化的才干以及性能。
在智能化方面,他们评价了新系统是否有效地间接依据 Kaggle URL 设置义务。结果,在跨多个畛域智能执行义务方面,该系统成功了 92.5% 的准确度,展现了其齐全智能化地成功复杂设置的才干。
在性能方面,在多模态应战赛中,该团队的方法成功了相当于 6 金 3 银 7 铜的效果(共 65 场竞赛),成为了首个到达 Kaggle Grandmaster level 1 水平的方法。下图展现了 Agent K v1.0 在各个义务上的性能体现。
此外,他们还测量了 Agent K v1.0 与人类介入者的 Elo-MMR 评分。结果标明,在由 5856 名参赛者组成的竞赛池中,Agent K v1.0 排名前 38%。
试验概略和更多试验结果以及关系探讨请访问原论文。