生成模型在单智能体场景中的运行曾经取得了清楚停顿。例如,UniSim经过预测图像中的举措来推断未来的情形,展现了从宽泛数据中学习的模拟器可以推行到事实环球,并弥合仿真与事实的差距。而Genie则准许用户在生成的环境中逐帧执行,为训练未来的通用智能体铺平了路线。然而这些模型关键集中于单智能体场景,关于须要多个智能体协同上班的义务,它们的实用性相对有限。
在多智能体强化学习(MARL)义务中,环球模型的钻研尚处于起步阶段。虽然一些钻研在模拟单智能体行为方面取得了停顿,但在触及多个智能体的复杂场景中,现有方法依然面临诸多应战。例如,MARL义务通常触及多个实体的属性,如位置和角色,仅用文本形容形态是艰巨的。此外,MARL环境的灵活和鼓励模型比单智能体设置愈加复杂,现有的方法假定鼓励是已知的或可以经过帧消息轻松推导,但这种假定在MARL中并不成立。
针对这些局限性,最新钻研提出了经过生成环球模型来增强多智能体决策疑问答案的战略。来自国度人机混合增强智能重点试验室和国度视觉消息与运行工程钻研中心的钻研团队探求了一种新的范式,将言语疏导的模拟器整合到多智能体强化学习流程中,以提供更为实际的处置打算。模拟器作为一个环球模型,区分学习灵活和鼓励,应用这些模型生成的试错体验来训练联结战略,从而优化多智能体决策疑问的处置品质。
这项钻研由西安交通大学的钻研团队成功,团队成员包括Zeyang Liu、Xinrui Yang、Shiguang Sun、Long Qian、Lipeng Wan、Xingyu Chen和通信作者Xuguang Lan。钻研团队附属于国度人机混合增强智能重点试验室和国度视觉消息与运行工程钻研中心,专一于多智能体系统和生成模型的钻研,努力于经过翻新的方法处置事实环球中的复杂疑问。他们的钻研上班在2024年神经消息处置系统会议(NeurIPS 2024)上展现,充沛表现了他们在人工智能和机器人畛域的上游位置和翻新才干。
钻研动机
多智能体义务中存在许多应战和需求。多智能体系统须要协调多个智能体的行为,以成功独特的指标,这须要复杂的决策和布局环节。现有生成模型在处置多智能体义务时往往缺乏对灵活环境的准确模拟,造成生成的处置打算不够准确和牢靠。
经过言语疏导的模拟器在增强决策疑问答案中的后劲显而易见。将言语模型与环球模型相结合,能够更好地理解义务形容,并经过模拟不同的决策环节来生成更准确的答案。这不只可以提高多智能体系统的效率和功能,还可认为实践运行提供更为实际可行的处置打算。本钻研经过提出一种新的范式,将言语疏导的模拟器整合到多智能体强化学习流程中,旨在处置多智能体义务中的复杂决策疑问,优化生成模型的实用性和有效性。
图1:关于的视觉言语模型来说,须要很好地理解环境灵活和指标的复杂决策疑问依然具有应战性,例如,GPT-4得出的答案是粗略和误导性的。雷同,互动前学习(LBI)经过模拟给定疑问中的义务来成功有依据的推理。LBI应用模拟器训练MARL战略,并经过在模拟器上运转聚合战略来生成答案。
方法论
互动模拟器的构建
在多智能体决策疑问中,互动模拟器的构建是至关关键的一步。钻研团队提出的互动模拟器由三个**组件造成:图像分词器、灵活模型和鼓励模型。经过这些组件的相互协作,模拟器能够生成试错阅历,并且优化多智能体决策疑问的答案品质。
图像分词器的作用是将原始视频帧转换为团圆标志,从而降低数据维度并提高图像生成的品质。详细来说,作者驳回了矢量量化变分自编码器(VQ-VAE),这是一种先进的图像编码方法。VQ-VAE经过对每一帧图像启动编码,生成团圆示意。这种示意不只保管了原始图像的关键消息,还清楚缩小了数据量,从而为后续的灵活模型和鼓励模型提供了高效的输入数据。
图2:数据集构建和VQ-VAE训练。
灵活模型是互动模拟器的**组件之一,它经过自回归建模,依据过去的帧和形态标志来预测下一帧和形态。钻研团队驳回了因果变换器作为灵活模型的架构,并在义务形容的指点下启动建模。详细来说,灵活模型接纳一系列的图像和形态标志,并在每一个期间步启动预测。为了提高预测的准确性和稳固性,灵活模型还驳回了灵活残差项,将形态预测指标从St+1为ΔSt+1=St+1−St ,以进一步提高生成的准确性。经过这种方式,灵活模型能够生成分歧的长视距轨迹,确保多智能体决策环节中各个步骤的连接性。
鼓励模型经过轨迹推断形态-举措对的鼓励,是互动模拟器中另一个关键组件。作者驳回了相似于逆强化学习的训练管道,经过最大化专家演示轨迹的似然性来训练鼓励模型。详细来说,鼓励模型接纳完整的轨迹作为输入,并在确定性灵活下启动信誉调配。为了防止鼓励高估,钻研团队引入了鼓励解放和行为正则化,经过这些措施启动样本内学习,从而提高鼓励预测的准确性。鼓励模型的这一设计使得互动模拟器能够在复杂的多智能体决策环境中生成正当的鼓励,并协助智能体极速学习到最优战略。
为了构建有效的互动模拟器,首先须要一个片面的数据集。钻研团队提出的新SMAC多智能体强化学习数据集,经过解析器智能生成给定形态和义务形容的实在图像。SMAC(StarCraft Multi-Agent Challenge)环境以其丰盛的环境和高控制复杂性著称,是训练和测试多智能体系统的理想平台。为了生成训练数据,钻研者们运转多智能体探求方法,如EMC(Efficient Multi-agent Communication)和IIE(Interactive Imitation Learning),在多个训练地图上搜集了少量的交互轨迹。每条轨迹都蕴含形态、观察、联结举措和成功信号。这些数据经过解析器转换为相应的图像和义务形容,为模拟器的训练提供了基础。
义务形容的解析与生成是训练互动模拟器的关键步骤之一。钻研团队设计了一种解析器,将每个轨迹转换为人造言语义务形容。这些义务形容蕴含环境灵活、代理和死敌的数量和类型,以及中断形态下死敌的残余生命值等消息。经过这种方式,义务形容不只提供了形态的消息,还为模拟器的灵活模型提供了额外的高低文,使其能够更准确地预测未来的形态。
图3:互动前学习概述。
灵活模型是模拟器的**组件之一,其作用是依据过去的帧和形态标志,预测下一帧和形态。为了成功这一指标,钻研团队驳回了因果变换器作为灵活模型的架构。详细来说,灵活模型经过自回归建模,依据义务形容和过去的帧和形态标志,生成未来的形态和图像。
鼓励模型经过推断形态-举措对的鼓励,协助智能体在模拟环境中学习到最优战略。钻研团队自创了逆强化学习的训练管道,经过最大化专家演示轨迹的似然性来训练鼓励模型。详细来说,鼓励模型接纳完整的轨迹作为输入,并依据轨迹中的灵活消息启动鼓励调配。为了防止鼓励高估,钻研者们引入了鼓励解放和行为正则化,经过这些措施启动样本内学习,从而提高鼓励预测的准确性和鲁棒性。
试验与结果
功能比拟
在功能比拟中,钻研团队评价了LBI(Learning before Interaction)在无鼓励的离线学习、离线多智能体强化学习(MARL)和在线多智能体强化学习中的表现。
在无鼓励的离线学习方面,LBI清楚优于多种基准方法,包括行为克隆(BC)和反抗模拟学习(MA-AIRL)。行为克隆方法经过模拟整个数据集的行为来学习战略,而MA-AIRL经常使用反抗学习启动战略模拟。虽然这些方法在一些义务上有必定的表现,但它们往往不可在复杂的多智能体决策场景中成功高成功率。相较之下,LBI经过生成试错阅历,改良了决策环节,从而在各种难度的地图上表现出色。
离线MARL方面LBI雷同表现出色,逾越了现有的多种方法,如BCQ-MA和CQL-MA。这些离线方法应用实在鼓励启动训练,但在代理数量参与时,其功能往往会清楚降低。钻研团队提出的LBI经过灵活模型和鼓励模型的协同上班,生成了更为正当的试错轨迹,并优化了战略学习,从而在复杂的环境中取得了更高的成功率和表现。
在线MARL方面,LBI也展现了其优越性。钻研团队将LBI与现有的在线方法如CW-QMIX、QPLEX等启动了比拟。结果标明,LBI在样本效率方面清楚优化,这得益于其预训练的环球模型在生成照应时缩小了等候期间。这一结果标明,预训练的环球模型不只能够提高离线学习的功能,还能在在线学习环节中提供清楚的长处。
在未见义务中的泛化才干
为了评价LBI(Learning before Interaction)在未见义务中的泛化才干,钻研团队测试了LBI在十个未见测试地图上的表现。结果显示,LBI在这些新的环境中依然表现出色,成功地将已学常识转移到新义务上,且无需额外的微调。这种零样本泛化才干是生成模型在实践运行中十分关键的个性,证实了LBI在多智能体决策疑问中的宽泛实用性。
图4:灵活和鼓励模型预测的可视化,其中“np-op”和“s”区分示意不操作和中止。
灵活模型不只能够生生长视距的图像轨迹,还能在关键形态下进执行作可控生成。详细来说,灵活模型在生成的环节中没有产生清楚的累积误差,这标明LBI具有生成分歧性和长视距轨迹的才干。在5m_vs_6m的例子中,钻研人员展现了在某个或者举措后的延续帧,证实了LBI可以进执行作可控的生成,协助智能体更好地理解和执行战略。
消融钻研
钻研团队经过消融钻研深化剖析了互动模拟器中各组件的奉献,包括灵活模型和鼓励模型的详细作用及其在不同义务中的表现。
灵活模型在生生长视距轨迹和预测未来形态方面起着关键作用。经过消融钻研,钻研团队发现,经常使用灵活残差项对缩小后续形态的预测误差至关关键。这在各种训练和未见义务中,灵活残差项清楚优化了模型的全体表现。虽然图像参考的效果不如预期,但作为另一种形式,图像在某些状况下比言语或形态消息更具表现力,未来的钻研或者会进一步探求其后劲。
关于鼓励模型,鼓励解放和行为正则化在训练义务中施展了关键作用,清楚改善了全体功能。详细来说,鼓励解放经过控制鼓励值,防止了在样本外形态-举措对上产生鼓励过高的状况,而行为正则化则经过在战略学习中参与激进性,进一步提高了鼓励预测的准确性。在未见义务中,钻研发现,鼓励的激进性比战略更为关键。当存在样本外形态-举措对时,激进的鼓励预测能够更好地协助智能体启动决策学习。相比之下,LBI(Learning before Interaction)在缺乏鼓励解放和行为正则化的状况下表现较差,这进一步证实了这些组件在优化模型功能中的关键作用。
相关上班
环球模型
环球模型的钻研在多智能体强化学习中表演着至关关键的角色。这些模型经过预测环境灵活和鼓励,协助智能体更有效地学习和决策。
模型预测控制(MPC)是一种经过模型模拟来生成高鼓励举措序列的方法。在MPC的运行中,像MBMF、PETS和PlaNet等模型经过集成MPC来采样高鼓励的举措序列。这些方法依赖于环球模型对环境灵活的准确模拟,从而在多步预测中生成最优的决策序列。AlphaGo和MuZero等出名算法经过学习转换模型并运行蒙特卡罗树搜查(MCTS),成功了在人类竞争游戏中的打破。这些方法展现了环球模型在生成高品质决策中的后劲。
微散布局与战略学习方法应用模型的外部结构来促成战略学习。GPS(Guided Policy Search)和GDP(Gradient-based Policy Search)等模型经过微散布局取得最优战略的解析方式。这些方法经过对环球模型和战略启动从新参数化,并经过反向流传计算战略梯度预计,从而提高了战略的学习效率。SVG(Stochastic Value Gradients)和MAAC(Multi-Agent Actor-Critic)等模型在紧凑的潜在空间中学习环球模型和战略,进一步优化了战略学习的效果。
Dyna-style 方法经过生成更多的阅从来训练战略,从而裁减了数据集的笼罩范围。MVE(Model-based Value Expansion)和STEVE(Stochastic Ensemble Value Expansion)等方法经过多步期间差预测启动更好的价值预计。SLBO(Safe Model-Based Optimization)、MBPO(Model-Based Policy Optimization)和BMPO(Behavioral Model-Based Policy Optimization)等办规律经过实践剖析证实,战略功能会在必定模型偏向和回滚长度下干燥改良。为了进一步参与回滚长度并防止累积误差,M2AC(Model-based Actor-Critic)和COPlanner(Conservative Planner)计算每一步的回滚不确定性,并在总鼓励中参与处罚项。这些方法展现了环球模型在生成更多阅历并训练战略中的有效性。
模拟学习
模拟学习经过模拟专家的行为来训练智能体,是一种宽泛运行于多智能体系统的有效方法。在这些方法中,最大熵逆强化学习(MaxEnt IRL)、条件分散模型和序列建模方法都具有关键意义。
最大熵逆强化学习(MaxEnt IRL)经过最小化代理和专家散布之间的差异来学习稳固的鼓励函数。这种方法不只能捕捉专家行为的多样性,还能提供更好的泛化才干。经过最大化轨迹的熵,MaxEnt IRL能够有效地处置复杂的决策疑问,并在多个畛域表现出色。例如,在人造言语指标和灵活学习中,MaxEnt IRL展现了其弱小的顺应才干和宽泛的运行前景。
条件分散模型是模拟学习中的另一种关键方法。经过将形态和噪声向量作为输入,条件分散模型可以生成预测举措,并模拟人类专家或游戏数据中的多模态行为。这种方法在建模随机行为和处置复杂环境方面表现优秀。与传统的模拟学习方法相比,条件分散模型能够更好地顺应各种不同的情形,并提供更高的灵敏性。
序列建模方法经过将轨迹生成疑问看作序列建模疑问,成功了对形态、举措和鼓励的高效生成。决策变压器(MADT)是序列建模方法中的代表,它经过自回归方式生成形态、举措和鼓励。与传统的模拟学习方法相比,决策变压器能够更好地捕捉决策环节中的依赖相关,并提供更为准确的决策结果。这种方法在多智能体决策义务中表现出色,展现了其在序列建模中的后劲。
论断与展望
钻研团队提出的“交互前学习” (Learning before Interaction, LBI) 方法,结合了生成模型和多智能体强化学习,展现了在多智能体决策疑问中的翻新性和有效性。LBI经过引入言语疏导的互动模拟器,处置了传统生成模型在处置复杂多智能体决策疑问时的无余。详细来说,LBI包括图像分词器、灵活模型和鼓励模型三个**组件,这些组件协同上班,生成高品质的试错阅历,改良了决策品质。试验结果标明,LBI不只在各种基准测试中表现出色,还展现了弱小的零样本泛化才干,能够在未见义务中坚持出色表现。这些钻研成绩证实了LBI在处置复杂多智能体决策疑问上的后劲和实践运行价值。
LBI的提出为多智能体系统的钻研提供了新的思绪和方向。未来的钻研可以进一步优化和裁减LBI的运行场景。例如,在其余高复杂度和高灵活性的环境中,LBI有望经过顺应不同的义务形容和鼓励函数,展现出更宽泛的实用性。此外,LBI的框架可以与其余先进的人工智能技术相结合,如人造言语处置和计算机视觉,进一步提高多智能体系统的智能化水平。
另一个关键的钻研方向是提高LBI的效率和可裁减性。虽然钻研团队曾经展现了LBI在样本效率上的清楚优化,未来的钻研可以探求更高效的模型训练和推理方法,以进一步缩小计算老本和期间。同时经过引入更多的实践数据和场景,LBI可以在实在环球的运行中获取验证和改良,推进多智能体决策系统在工业、医疗和社会控制等畛域的开展。
LBI的翻新性和有效性为多智能体决策疑问提供了实际可行的处置打算,其宽泛的运行后劲和未来的钻研方向也为人工智能畛域带来了新的机会和应战。科技的提高总是如此令人兴奋和等候。(END)
参考资料:
本文转载自,作者: