企业宣传,产品推广,广告招商,广告投放联系seowdb

机器智能子刊 人造 Nature 多智能体系统中的高效决策与去核心化强化学习的运行

随着技术的始终提高和数据量的爆炸性增长,大规模人工智能(AI)系统的需求日益参与。这些系统在交通治理、电力调配、市区布局等多个畛域展现出渺小的后劲。但是如何在扩展AI模型的同时坚持其功能,成为了一个亟待处置的难题。

大规模AI系统面临的关键应战在于其可扩展性和功能的平衡。传统的集中式AI方法在处置复杂义务时,往往须要少量的通讯和数据采样,这不只参与了系统的复杂性和老本,还或者造成功能的降低。此外随着系统规模的扩展,通讯提前和数据传输的瓶颈也变得愈加清楚。例如在交通网络中,频繁且大规模的通讯或者造成清楚的功率损耗和信号搅扰,从而影响系统的稳固性和效率。

散布式AI经过将复杂义务分解并调配给多个协作节点,可以清楚提高系统的可扩展性。多智能体强化学习(MARL)作为散布式AI的一种先进范式,曾经在智能驾驶、无线通讯、多玩家游戏、电力系统和市区交通等多个场景中取得了清楚停顿。MARL的长处在于其能够经过数据启动非线性拟合,并成功高效的推理。但是,虽然MARL无实践上具备诸多长处,但其在实践运行中的可扩展性和效率依然面临诸多应战。

9 月 3 日人造(Nature)期刊-机器智能子刊宣布的论文《Efficient and scalable reinforcement learning for large-scale network control》提出了一种基于模型的去核心化战略优化框架,旨在成功大规模网络控制中的高效可扩展强化学习。经过在智能体级别的拓扑解耦全局灵活,论文证实了这种去核心化机制可以准确预计全局消息。此外论文引入了模型学习,以在有限的采样数据下强化最优战略,成功干燥改良。试验证实,该方法在数百个智能体的实践系统中表现出优越的可扩展性,为大规模AI系统的扩展铺平了路线。

钻研团队由来自北京大学和伦敦国王学院的多位学者组成,他们在人工智能和多智能体系统畛域具备丰盛的钻研阅历。详细成员有Chengdong Ma,来自北京大学人工智能钻研院和多智能体钻研核心的钻研员,关键钻研方向包含大规模网络控制和强化学习;Aming Li是北京大学人工智能钻研院、多智能体钻研核心以及工程学院系统与控制核心的钻研员,钻研畛域涵盖系统控制和多智能体系统;Yali Du是伦敦国王学院消息学系的钻研员,钻研兴味包含散布式AI和多智能体系统;Hao Dong是北京大学计算机迷信学院CFCS的钻研员,专一于计算机迷信和人工智能的前沿钻研;Yaodong Yang是北京大学人工智能钻研院和多智能体钻研核心的钻研员,钻研方向包含强化学习和多智能体系统。这篇论文宣布在《人造》期刊的机器智能子刊上,表现了团队在该畛域的技术实力和钻研深度。

相关上班

在大规模网络控制畛域,现有的方法面临着诸多应战和局限性。论文将从通讯和数据采样的高需求、传统方法的无余以及多智能体强化学习(MARL)的停顿三个方面启动讨论。

图1:网络代理的钻研动机和相关。

大规模AI系统通常须要频繁且少量的数据通讯和采样,以确保系统的准确性和稳固性。但是这种高需求的通讯和数据采样带来了以下几个关键疑问。

首先是通讯老本高,在大规模网络中,频繁的数据替换会造成通讯老本清楚参与。例如,在交通网络中,交通讯号灯之间的频繁通讯会造成功率损耗和信号搅扰,从而影响系统的全体功能。频繁的通讯不只参与了系统的能耗,还或者造成网络拥挤和提前,进一步影响系统的实时性和牢靠性。

其次数据采样艰巨,随着系统规模的扩展,采集足够的数据变得愈加艰巨和低廉。在一些场景中,智能体与环境的交互次数遭到限度,造成数据采样效率低下。例如,在智能交通系统中,失掉足够的交通流量数据须要少量的传感器和数据采集设施,这不只参与了老本,还或者遭到设施缺点和数据失落的影响。

此外,数据的高需求还带来了隐衷和安保疑问。在一些触及用户数据的系统中,集中式的消息搜集参与了隐衷暴露的危险。例如,在智能电网中,集中搜集用户的用电数据或者造成用户隐衷的暴露,进而引发安保疑问。

传统的控制方法,如模型预测控制(MPC),在处置复杂系统时存在无余。

MPC方法须要准确的系统灵活模型,而在复杂系统中,失掉准确的灵活模型往往十分艰巨。复杂系统通常具备高度的非线性和不确定性,传统的建模方法难以准确形容系统的灵活行为。例如,在智能交通系统中,交通流量的变动遭到多种起因的影响,包含天气、交通意外和路线施工等,这些起因的复杂性和不确定性使得建设准确的灵活模型变得十分艰巨。

即使能够取得准确的灵活模型,传统方法通常依赖于系统的线性化,这会疏忽系统中的非线性起因和扰动,造成功能降低。线性化方法在处置小范围内的线性系统时效果较好,但在处置大范围内的非线性系统时,功能往往不尽善尽美。例如,在智能电网中,电力系统的灵活行为具备高度的非线性,传统的线性化方法难以准确形容系统的灵活特性,造成控制效果不佳。

此外,传统方法在计算效率、数值稳固性和通讯老本方面也存在无余,难以顺应大规模系统的需求。传统方法通常须要少量的计算资源和期间来求解优化疑问,计算效率低下,难以满足实时控制的要求。例如,在智能交通系统中,实时优化交通讯号控制须要极速照应和高效计算,传统方法难以满足这一需求。

多智能体强化学习(MARL)作为散布式AI的一种先进范式,提供了一种或者的处置打算。MARL在多个畛域取得了清楚停顿,展现了其在大规模网络控制中的后劲。

在智能驾驶畛域,MARL用于协同车辆控制和交通讯号优化,经过多智能体的协作,可以成功更高效的交通治理和更安保的驾驶体验。例如,在智能驾驶车队中,每辆车作为一个智能体,经过相互通讯和协作,可以成功车队的协调控制,防止交通意外和提高行驶效率。

在无线通讯中,MARL用于优化频谱调配和搅扰治理,提高通讯网络的效率和稳固性。经过多智能体的协作,可以成功频谱资源的灵活调配和搅扰的有效治理,提高通讯网络的应用率和服务品质。例如在蜂窝网络中,每个基站作为一个智能体,经过相互通讯和协作,可以成功频谱资源的灵活调配和搅扰的有效治理,提高网络的全体功能。

在多玩家游戏中,MARL用于战略优化和对手建模,优化了游戏AI的智能水温和互动体验。经过多智能体的协作,可以成功复杂游戏环境中的战略优化和对手建模,提高游戏AI的智能水温和互动体验。例如在多人在线游戏中,每个玩家作为一个智能体,经过相互通讯和协作,可以成功游戏战略的优化和对手的建模,提高游戏的兴趣性和应战性。

在电力系统中,MARL用于电网的负载平衡和缺点检测,提高了电力调配的牢靠性和效率。经过多智能体的协作,可以成功电网的灵活负载平衡和缺点的极速检测,提高电力系统的牢靠性和效率。例如在智能电网中,每个电力设施作为一个智能体,经过相互通讯和协作,可以成功电网的灵活负载平衡和缺点的极速检测,提高电力系统的全体功能。

在市区交通治理中,MARL经过优化交通讯号和车辆门路,清楚缩小了交通拥挤和排放,提高了市区交通的全体效率。经过多智能体的协作,可以成功交通讯号的灵活优化和车辆门路的智能布局,提高市区交通的全体效率和可继续性。例如,在智能交通系统中,每个交通讯号灯和车辆作为一个智能体,经过相互通讯和协作,可以成功交通讯号的灵活优化和车辆门路的智能布局,缩小交通拥挤和排放,提高市区交通的全体效率。

虽然MARL无实践上具备诸多长处,但其在实践运行中的可扩展性和效率依然面临诸多应战。论文提出的基于模型的去核心化战略优化框架,旨在处置这些应战,成功大规模网络控制中的高效可扩展强化学习。经过论文的钻研,团队宿愿为大规模AI系统的可扩展性和高效性提供新的处置打算,并推进该畛域的进一步开展。

方法

钻研团队提出了一种基于模型的去核心化战略优化框架,旨在处置大规模网络控制中的高效可扩展强化学习疑问。该方法经过部分观察和全局灵活的拓扑解耦,成功了模型学习与战略优化的有效结合。此外,他们还引入了ξ依赖网络系统的概念,以更好地处置复杂系统中的环境转移疑问。

模型驱动的去核心化战略优化框架

在大规模网络系统中,智能体须要在部分观察的基础上做出决策,而不依赖于全局消息。为此钻研团队提出了一种基于拓扑解耦的去核心化机制,经过在智能体级别启动部分观察,成功对全局灵活的准确预计。这种方法不只缩小了通讯老本,还提高了系统的可扩展性。

详细来说,智能体经过与其街坊的部分通讯,失掉必要的消息来预计全局形态。经过这种模式,每个智能体只有处置与其间接相关的部分消息,而不须要失掉整个系统的全局消息,从而大大降低了计算和通讯的复杂性。

在该框架中,模型学习与战略优化严密结合,以成功高效的决策环节。首先,智能体经过与环境的交互,搜集形态、举措和鼓励数据,并经常使用这些数据训练预测模型。而后,智能体在预测模型的基础上启动战略优化,以提高决策的准确性和效率。

为了进一步提高模型的准确性,钻研团队引入了分支回滚方法。该方法经过从之前战略的形态散布中采样形态,并运转固定步数的回滚,结合模型驱动和无模型回滚的长处,缩小了模型误差,提高了战略优化的效果。

图2:咱们的方法架构、不同MDP之间的区别和咨询以及模型学习环节。

依赖网络系统

在大规模网络系统中,环境的灵活行为通常具备必定的部分性,即部分形态和举措不会清楚影响远处智能体的形态。基于这一观察,钻研团队定义了独立网络系统(INS)和ξ依赖网络系统。

独立网络系统(INS)假定环境的转移函数可以因子化,即每个智能体的形态转移仅依赖于其部分街坊的形态和举措。但是这一假定在实践运行中往往过于剧烈。因此,钻研团队提出了ξ依赖网络系统的概念,准许必定水平的依赖偏向,即部分形态和举措对远处智能体的形态有必定的影响。

在ξ依赖网络系统中,环境的转移函数可以近似为独立网络系统的转移函数加上依赖偏向。经过这种模式,智能体可以在部分模型的基础上,预测未来的部分形态,从而成功高效的决策环节。

钻研团队经过定义总变差距离(DTV)来度量实在环境转移函数与近似转移函数之间的差异。经过最小化这一差异,智能体可以在部分模型的基础上,准确预测未来的形态和鼓励,从而提高战略优化的效果。

论文提出的基于模型的去核心化战略优化框架,经过部分观察和全局灵活的拓扑解耦,成功了模型学习与战略优化的有效结合。引入的ξ依赖网络系统概念,为处置复杂系统中的环境转移疑问提供了新的思绪。经过这些方法,钻研团队成功地在大规模网络控制中成功了高效可扩展的强化学习,为未来的钻研和运行提供了关键的参考。

实践剖析

在论文中,钻研团队经过详细的实践剖析,证实了所提出方法的有效性和可行性。关键从干燥模型改良和战略梯度近似两个方面启动讨论。

干燥模型改良

在模型驱动的强化学习中,战略报答的界限是评价战略功能的关键目的。钻研团队定义了战略在实在环境中的报答和在近似模型中的报答,并构建了两者之间的差异界限。战略报答的界限可以示意为:

其中,η[π]示意战略在实在环境中的报答,η[π^]示意战略在近似模型中的报答,C是一个非负函数,πD是数据搜集战略。经过确保每次战略降级至少提高必定的报答,可以成功干燥改良。

为了进一步提高模型的准确性,钻研团队引入了分支回滚打算。传统的回滚方法假定模型在有限期间范围内经常使用,而分支回滚打算则从之前战略的形态散布中采样形态,并运转固定步数的回滚。经过这种模式,分支回滚打算能够有效结合模型驱动和无模型回滚的长处,缩小模型误差,提高战略优化的效果。

详细来说,分支回滚打算的长处在于:

战略梯度近似

在战略优化环节中,值函数用于计算长处函数。钻研团队提出了一种扩展值函数的计算方法,经过街坊智能体的消息来近似全局值函数,扩展值函数可以示意为:

经过这种模式,扩展值函数能够在仅依赖街坊消息的状况下,准确预计全局值函数,从而提高战略优化的效果。

钻研团队进一步证实了基于扩展值函数计算的战略梯度是实践战略梯度的近似。战略梯度的近似精度可以示意为:

其中, 示意基于扩展值函数计算的战略梯度,

区分示意鼓励和梯度的上界。经过这种模式,钻研团队证实了基于扩展值函数计算的战略梯度在误差较小的状况下,能够有效近似实践战略梯度。

论文经过详细的实践剖析,证实了所提出方法在干燥模型改良和战略梯度近似方面的有效性和可行性。经过这些实践剖析,钻研团队为成功大规模网络控制中的高效可扩展强化学习提供了松软的实践基础。

试验结果

在论文中,钻研团队经过一系列试验验证了所提出方法在大规模网络控制中的有效性和可扩展性。试验涵盖了多个评价场景和目的,包含车辆控制、疫情网络控制和电力控制。以下是试验设置、结果剖析以及与现有方法的功能对比。

图3 :关键训练结果和消融钻研。

试验设置

为了片面评价所提出方法的功能,钻研团队设计了多个试验场景,包含交通系统中的车辆控制、疫情网络中的防控战略以及电力系统中的电压控制。每个试验场景都具备高度的事实性和复杂性,旨在模拟实践运行中的应战。

在车辆控制试验中,钻研团队选用了协作自顺应巡航控制(CACC)和衔接自主车辆控制(Flow)作为评价场景。经过控制车辆的速度和车距,评价所提出方法在交通流量治理中的效果。

在疫情网络控制试验中,钻研团队模拟了一个大规模的疫情流传场景,经过调整不同社会单位的控制战略,评价所提出方法在控制重症病例和死亡病例方面的表现。

在电力控制试验中,钻研团队选用了IEEE电力网和实践电力系统作为评价场景,经过控制电压和功率损耗,评价所提出方法在电力系统中的运行效果。

图4:CACC、Flow和盛行病网络车辆控制评价结果。

评价场景和目的

在每个试验场景中,钻研团队选用了多个关键目的来评价所提出方法的功能。这些目的包含:

结果剖析

在CACC和Flow义务中,所提出的方法能够稳固控制车辆的速度和车距,确保交通流量的效率和安保性。详细来说,车辆的速度和车距能够稳固在目的值左近,防止了交通拥挤和意外的出现。此外,所提出的方法在交通流量治理中表现杰出,清楚提高了交通流量的效率。

图 5:ATSC 对大规模交通管制的评价结果。

在疫情网络控制试验中,所提出的方法能够有效控制重症病例和死亡病例的数量,使其低于医院的最大容量,减轻了医护人员的压力。详细来说,所提出的方法在多个场景中坚持较低的死亡率,同时尽或者平衡区域经济开展。这标明,所提出的方法在疫情防控中具备清楚的长处,能够在保障公共肥壮的同时,促成经济的可继续开展。

在电力控制试验中,所提出的方法能够在缩小通讯老本的同时,坚持牢靠的控制功能和对随机搅扰的顺应性。详细来说,所提出的方法在大规模电力网场景中展现了较高的安保控制率和较低的功率损耗,证实了其在随机搅扰下的顺应性和可扩展性。此外,所提出的方法在电压控制方面表现杰出,能够在不同负载条件下坚持电压的稳固性。

功能对比

在与现有方法的比拟中,所提出的方法在多个评价目的上表现杰出。详细来说,所提出的方法在车辆控制、疫情网络控制和电力控制试验中,均清楚优于现有的基准方法。这标明,所提出的方法在大规模网络控制中的功能和可扩展性方面具备清楚长处。

在样本效率和通讯老本方面,所提出的方法也表现杰出。详细来说,所提出的方法经过部分观察和全局灵活的拓扑解耦,清楚缩小了通讯老本,提高了样本效率。这不只降低了系统的能耗,还提高了系统的实时性和牢靠性。

图6:电网和实在电力网大规模电力控制的评价结果。

论文经过一系列试验验证了所提出方法在大规模网络控制中的有效性和可扩展性。经过这些试验结果,钻研团队证实了所提出的方法在多个实践运行场景中的后劲,为未来的钻研和运行提供了关键的参考。

讨论

在论文中,钻研团队提出了一种基于模型的去核心化战略优化框架,用于处置大规模网络控制中的高效可扩展强化学习疑问。经过试验验证和实践剖析,论文的方法展现了清楚的长处和后劲。

方法的长处

论文提出的方法在多个试验场景中展现了高功能和低通讯老本的清楚长处。经过部分观察和全局灵活的拓扑解耦,智能体能够在仅依赖街坊消息的状况下,准确预计全局形态。这种去核心化机制不只缩小了通讯老本,还提高了系统的可扩展性。

详细来说,在车辆控制试验中,所提出的方法能够稳固控制车辆的速度和车距,确保交通流量的效率和安保性。在疫情网络控制试验中,所提出的方法能够有效控制重症病例和死亡病例的数量,使其低于医院的最大容量,减轻了医护人员的压力。在电力控制试验中,所提出的方法能够在缩小通讯老本的同时,坚持牢靠的控制功能和对随机搅扰的顺应性。

高样本效率是论文方法的另一大长处。经过引入分支回滚方法,智能体能够在有限的采样数据下,强化最优战略,成功干燥改良。分支回滚方法经过从之前战略的形态散布中采样形态,并运转固定步数的回滚,结合模型驱动和无模型回滚的长处,缩小了模型误差,提高了战略优化的效果。

在试验中,所提出的方法在多个评价目的上均清楚优于现有的基准方法,展现了其在样本效率方面的长处。这不只降低了系统的能耗,还提高了系统的实时性和牢靠性。

未来钻研方向

虽然论文的方法在多个方面展现了清楚的长处,但仍有一些值得进一步钻研和探求的方向。

系统拓扑的优化是未来钻研的一个关键方向。经过优化智能体之间的通讯拓扑结构,可以进一步缩小通讯老本,提高系统的可扩展性和鲁棒性。未来的钻研可以探求不同的拓扑结构对系统功能的影响,并设计出最优的通讯拓扑结构,以成功更高效的决策环节。

模块扩展也是未来钻研的一个关键方向。经过引入视觉和人造言语处置模块,可以进一步提高系统的智能水温和顺应性。例如,在智能驾驶畛域,结合视觉模块可以成功更准确的环境感知和决策;在智能家居畛域,结合人造言语处置模块可以成功更人造的人机交互和控制。

总之,钻研团队提出的基于模型的去核心化战略优化框架,经过部分观察和全局灵活的拓扑解耦,成功了高效可扩展的强化学习。未来的钻研可以在系统拓扑的优化和模块扩展方面启动深化探求,以进一步提高系统的功能和智能水平。经过这些钻研,钻研团队宿愿为大规模AI系统的可扩展性和高效性提供新的处置打算,并推进该畛域的进一步开展。(END)

参考资料:

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender