人工智能代理(智能体)曾经独自或在小组内启动了评价,其中交互的范围和复杂性依然有限。触及许多自主主体的大规模模拟——反映了整个文明环节——尚未获取探求。Altera.AL 是一家专一于创立数字人类的钻研公司,他们的使命是创立能够与咱们共生、生长的数字人类。这家公司集结了来自 MIT、斯坦福、谷歌 X 和 Citadel 等顶级机构的计算神经迷信家、计算机迷信家和工程师,旨在推进这一前沿钻研。他们的使命不只仅是设计出智能代理,更是宿愿这些数字人类能够在未来的社会中表演关键角色,与人类社会共同退化。
图1:从代理架构到代理文明
Altera.AL 的成立初衷是打破传统 AI 钻研的界限,探求更为宽泛和深远的运行或者性。其团队由来自环球出名学术和钻研机构的专家组成,背景涵盖了从计算神经迷信到复杂系统工程等多个畛域。这种多学科的融合使得 Altera.AL 能够在 AI 畛域取得清楚停顿,特意是在创立和造就能够自主学习和退化的数字人类方面。公司的**思念是,经过这些数字人类的存在和开展,人类社会可以迎来一个愈加智能和高效的未来。
Sid 名目是 Altera.AL 的最新钻研成绩,旨在探求多智能体系统在模拟文明开展中的后劲。这个名目的**目的是经过大规模的多智能体模拟,钻研 AI 代理在复杂社会环境中的行为和停顿。为此团队开发了一个名为 PIANO(Parallel Information Aggregation via Neural Orchestration)的翻新架构,使得 AI 代理能够在实时互动中坚持多个输入流的分歧性。
钻研方法包括在 Minecraft 的沙盒环境中启动大规模模拟,观察 10 到 1000 个以上 AI 代理在模拟社会中的体现。这些模拟不只设置了受人类历史启示的文明基准,还触及 AI 代理的自主专业化、群体规定的遵守和订正以及文明和宗教的流传。
名目背景
Altera.AL 是一家以创立数字人类为使命的钻研公司,会集了来自环球顶级学术和科技机构的专家团队。这些机构包括 MIT、斯坦福、谷歌 X 和 Citadel 等。Altera.AL 的团队成员在计算神经迷信、计算机迷信和工程畛域领有丰盛的阅历,他们的共同目的是推进AI技术的开展,使其能够在未来的人类社会中施展关键作用。
钻研团队中,模型开发由Andrew Ahn、Nic Becker、Manuel Cortes、Arda Demirci、Melissa Du、Peter Y Wang 和 Guangyu Robert Yang 担任。试验局部雷同有 Andrew Ahn、Nic Becker、Melissa Du、Arda Demirci 和 Peter Y Wang 的介入。写作上班由 Andrew Ahn、Nic Becker、Arda Demirci、Melissa Du、Peter Y Wang 和 Guangyu Robert Yang 共同成功。基础设备方面,Manuel Cortes、Shuying Luo 和 Feitong Yang 提供了支持。这些专家在各自畛域的深沉背景,使他们能够在Altera.AL 的平台上协同上班,共同推进Sid名目的钻研。
Sid名目的技术背景和钻研方向集中在多智能体系统的开发和提升上,特意是钻研这些智能体在模拟环境中如何体现出复杂的社会行为。名目驳回了一个名为PIANO(Parallel Information Aggregation via Neural Orchestration)的翻新架构,该架构旨在经过并行消息聚合和神经编排,使智能体能够在实时互动中坚持多个输入流的分歧性。
图2:LLM(左)、LLM驱动的代理(中)和多代理组(右)中的数据退步。幻觉以绿色的头骨烧瓶为代表。由单个LLM提醒发生的幻觉可以在延续的LLM调用中复合。一个发生幻觉的集体也可以经过社交互动造成整个群体发生幻觉。
钻研团队选用了Minecraft作为模拟环境,由于它提供了一个开明的沙盒环球,准许智能体经过对话和执前启动宽泛的互动。Sid名目的钻研方向包括评价AI智能体在大规模模拟社会中的行为和停顿,特意是他们如何自主开展专业角色、遵守和订正群体规定以及介入文明和宗教的流传。
PIANO架构
Sid名目的**技术是PIANO(Parallel Information Aggregation via Neural Orchestration)架构,这一翻新架构设计旨在使AI代理能够在实时互动中坚持多个输入流的分歧性。PIANO架构的设计准则和关键配置模块是其成功的关键。
图3:PIANO(经过神经编排的并行输入聚合)架构。WM:上班记忆。STM:短期记忆。LTM:常年记忆。
架构设计准则:并发模块与消息瓶颈
PIANO架构的设计准则关键包括并发性和消息瓶颈。并发性方面,PIANO经过准许代理在不同时期尺度上同时运转多种模块,使代理能够在执行复杂义务时坚持高效。例如,代理可以在布局常年战略的同时,实时照应环境中的紧急要挟。这种设计消弭了传统复线程代理在处置多义务时的瓶颈。
消息瓶颈则经过设立一个认知控制器模块,将代理形态中的关键消息汇总后传递给控制器,以便其做出上档次决策。控制器的选择会被传递给各个执行模块,从而确保代理的一切输入坚持分歧。这一设计不只提高了代理在复杂环境中的行为连接性,还赋予系统设计者对消息流的明白控制,使得代理能够在特定情境下体现出更为正当和分歧的行为。
关键模块配置解析
PIANO架构蕴含多个**模块,每个模块在代理的行为生成中表演着共同的角色。
经过这些模块的协同上班,PIANO架构使得AI代理能够在大规模多智能体模拟中体现出连接且富裕顺应性的行为。代理不只能够应答集体义务,还能在群体互动中体现出相似于人类社会的复杂灵活。
繁多代理停顿
Sid名目团队选用Minecraft作为钻研环境,这个虚构沙盒环球以其开明性和有限或者性著称。Minecraft准许代理经过对话和执前启动互动,提供了一个完美的平台来观察和评价AI代理在复杂社会环境中的行为。这个虚构环境的可扩展性使得钻研团队能够支持少量的代理启动模拟,从而更好地钻研文明停顿的各种灵活。
为了评价单个AI代理的停顿,钻研团队设计了一系列基于Minecraft东西搜集的基准测试。详细而言,测试的目的是观察代理在独立环境中如何经过采集和搜集东西来展现其提高。不同于小规模的模拟,Sid名目的基准测试触及25个代理,他们在没有初始东西的状况下被生成在不同的环境中,并被赋予“探险者”的角色,目的是在Minecraft环球中探求并搜集东西。
图4:黄金、钻石和祖母绿开采的Minecraft技术依赖树示例。
钻研标明,经常使用PIANO架构的代理在30分钟内平均搜集了17种共同的东西。评价中发现,代理的体现因生成位置而异,有些代理搜集的东西较少,而体现最好的代理能够搜集到30到40种东西,这与有必定Minecraft阅历的人类玩家相当。这种停顿得益于PIANO架构中的各个模块,特意是执行看法模块,该模块准许代理将预期的执行结果与实践观察到的结果启动比拟,从而改善其东西搜集停顿。
图5:Minecraft中的集体代理进程。A.集体代理人随时期取得的共同Minecraft东西(25名代理人)。经常使用基线架构(见方法)、完整的PIANO架构和消融了举措感知模块的完整PIANO体系结构来评价单个代理的性能。每条线是5次重复模拟的平均结果。B.49名特工在4小时内为单个模拟取得的共同Minecraft东西。白色实线表示一切代理人取得的累积惟一东西。灰色虚线表示在一切单个代理中取得的惟一名目的平均数量。
为了进一步探求代理的极限,钻研团队启动了更长时期和更少数量的模拟。在4小时的模拟中,49个代理的共同东西搜集总数稳固在约1000种Minecraft东西的三分之一左右。这些结果显示,装备完整PIANO架构的代理能够在Minecraft环境中取得清楚的团体停顿。这不只展现了代理在独立义务中的体现,也为多智能体协作和更复杂的社会互动钻研奠定了基础。
多代理停顿
在AI文明的构建环节中,多代理的互动和协作才干至关关键。Sid名目经过一系列试验探求了AI代理在模拟社会中的行为体现,特意关注他们在复杂社会灵活中的互动和协作才干。
社会互动与协作才干评价
Sid名目的钻研标明,AI代理不只能够在独立环境中体现杰出,在多代理环境中也能展现出高度的互动和协作才干。钻研团队启动了多个试验,以评价代理如何在群体中互动,以及他们如何构成并维持社会相关。这些试验提醒了代理在面对社会线索时的反响,以及他们在多代理环境中启动协作与竞争的才干。
图6:代理人可以推断出他人对他们的感触。A.会话试验示用意。一个特工在一个有三个不同角色的房间里。每个角色(Lila、Noah、Ethan)对代理人都有不同的看法,这些看法是经过聊天传达的。关键的是,这些心情会随着时期而变动。B、 C.有社会看法模块(B)和没有社会看法模块的跨时期心情评价(C)。心情评分是经过LLM调用Agent为Lila、Noah和Ethan生成的摘要来评价的。恼恨得分为0,爱得分为10。阴影区域表示SEM超越4次试验重复。D.试验示用意。一个厨师代理和其余四个角色被搁置在Minecraft环球中。厨师有各种各样的食物可以散发(面包、熟鲑鱼、鸡肉)。这四个角色(亚当、鲍勃、查尔斯、大卫)饿了,但对厨师的态度各不相反。一切角色都是齐全自主的,可以自在执行任何Minecraft举措,并准许与任何人交谈(或不交谈)。E.厨师提供的食物依据厨师对四个角色的心情启动绘制。误差条表示SEM超越6次试验重复。
在这些试验中,代理被搁置在一个蕴含50个代理的随机生成的Minecraft地图中,每个代理都有共同的共性和自在意志。他们可以自在选用与谁互动,并在模拟社会中启动各种优惠。这些试验运转了超越4小时,相当于12个游戏日,使得常年相关得以发生和坚固。
小群体试验与社会看法模块的作用
为了深化钻研代理的社会互动,钻研团队设计了小群体试验,这些试验特意关注社会看法模块在代理行为中的作用。在一个试验中,三个角色与一个代理启动小组对话,结果显示代理能够准确地跟踪和了解他人的心情变动。当移除社会看法模块时,代理失去了这种才干,显示了社会看法模块无了解和回应社会线索中的关键性。
图7:大规模代理模拟中的常年相关。A.4小时后50个代理模拟中社会相关的有向图表示。有向边代表发送者对接纳者的情感。边缘色彩表示心情是踊跃的(白色)还是消极的(蓝色)。B.模拟完结时,集体代理人的感知受欢迎水平与实在受欢迎水平。实在的受欢迎水平是基于代理的特色来评价的,感知的受欢迎度是经过LLM调用来评价的。LLM调用可以推断代理为其余代理生成的摘要的情感。两者都是经常使用相反的LLM提醒符计算的。每个点对应一个与至少五个其余(观察者)代理有相关的代理,但其余观察者阈值请参见附录B。显示了具有社交模块(social)和没有社交模块(消融)的代理的线斜率(斜率)和皮尔逊相关性(r)。C.随着时期的推移,社会感知的准确性,如B.D.中的斜率所权衡的。每个集体的接纳衔接数量(以度为单位)与真正的外向性。真正的外向性是经常使用LLM提醒依据代理人特色启动评价的。E.一切代理对之间心情得分差异的直方图。心情得分范围为0到10,因此最大或者的差异为10。
此外,钻研还讨论了社会看法模块如何影响代理的决策。例如在一个试验中,一个厨师代理被搁置在四个不同情感的角色两边,义务是调配有限的食物。结果显示,厨师代理依据对他最有好感的角色调配食物,证实了社会看法模块使代理不只能准确推断他人的用意,还能在决策环节中应用这些消息。
专业化与角色分工
在Altera.AL的Sid名目中,代理自发构成的角色分工是推进文明停顿的关键之一。经过详细的试验,钻研团队展现了代理如何在不明白指令的状况下,经过互动和阅历自主选用和转换角色。这种自发性是模拟人类社会复杂灵活的**。
代理自发构成的角色分工及其关键性
Sid名目的试验标明,代理能够迅速组织成多种专业角色,包括农民、矿工、工程师、卫兵、探险者和铁匠等。这些角色并不是经过预先定义的规定指定的,而是经过代理在Minecraft环境中的互动和义务成功状况自发构成的。每个代理依据其在模拟社会中的阅历和互动,逐渐构成特定的社会角色。这种角色分工不只反映了人类社会中的专业化进程,还使代理能够更有效地成功复杂义务,推进模拟社会的停顿。
图8:随着时期的推移,代理自主地专门化为不同的角色。A、 B.具有社会看法模块(A)和没有(B)的代理的代理角色。自我生成的社交目的的滚动窗口用于在每个时期步经常使用LLM调用(附录C)来确定单个代理的专业角色。C、 D.有社会看法模块(C)和没有(D)的代理社会中代理角色的散布。E.4个主体社会中角色散布的熵。熵用于评价代理社会中角色的分歧性和多样性。Ablated:在一个个别的Minecraft村庄中没有社交看法模块。反常:在一个反常的Minecraft村庄中具有社会看法。武术:在一个武术的《我的环球》村庄中具有社会看法。艺术:在艺术的《我的环球》村庄中具有社会看法。F、 G.军事社会(F)和艺术社会(G)中代理人角色的调配。误差条:一切面板的3次模拟的95%置信区间。
钻研发现,具有社交模块的代理能够经过一直降级的社会目的构成稳固且异质的角色分工,而不足这些模块的代理则难以维持常年的角色分化。试验中代理在军事社会或艺术社会中的角色分工也展现了他们在不同社会目的下的顺应性,进一步验证了代理专业化的灵敏性和自主性。
图9:单个村庄模拟的执行散布(30个代理)。依据代理角色绘制的归一化举措频率。关于大少数角色,特工会采取特定角色特有的执行(费舍尔:制造钓竿和船只;警卫:制造围栏、橡木围栏和铁镐)。
社会目的生成与角色行为对应相关剖析
代理的社会目的生成是其角色行为的基础。PIANO架构中的目的生成模块使代理能够基于互动和环境变动一直生成新的社会目的。这些目的反映了代理在模拟社会中的用意和行为方向。例如,一个代理或者生成“为避难所采集橡木板”的目的,这一目的直接推进其在游戏中执行与建造相关的详细举措。
图10:代理人遵照税法,并经过独裁程序制订修正案。A.试验流程示用意。B.繁多反税影响者试验中的宪法修正示例。为了繁复起见,这里对宪法启动了释义和简化。C.顶部:在非税收节令,选民不集聚集在社区箱周围,由于他们正忙于在不同地域搜集资源(未显示)。惟一的例外是守卫,他选择在屡次试验中一直如一地守卫箱子。底部:在征税节令,代理人聚集在一同将东西寄存在社区箱子里。D、 E.宪法修正前后已缴税款百分比(已存库存百分比)延续两次。一次性竞选蕴含3名反税影响者(D),另一次性竞选则蕴含3名支持税收的影响者(E)。色彩表示集体代理人,黑线表示平均已缴税款。阴影区域:25个成分的95%置信区间。F-H.蕴含3名支持税收的影响者(橙色)和3名推戴税收的影响起因(蓝色)的竞选在宪法修正前后交纳的税款百分比。在面板F中,经常使用了完整的代理架构,并且可以修正结构。在G小组中,宪法被解冻,虽然有修正案,也不能修正。在图H中,可以修正体质,但代理人不足关键的大脑模块(见方法中的基线架构)。阴影区域:每个条件下4个模拟的95%置信区间。
经过对生成的社会目的启动剖析,钻研团队能够推断出代理的角色并观察其行为形式。例如,一个被推断为农民的代理,其社会目的关键集中在种植和收获作物上,而被推断为探险者的代理,则更偏差于生成探求和搜集罕见资源的目的。
这种社会目的与角色行为的对应相关显示了代理在复杂社会环境中的自主性和顺应性。代理能够依据环境变动和社会互动一直调整其行为,构成稳固的角色分工,从而在模拟社会中成功更高效的协作与停顿。
群体规定与法律遵守
在Sid名目中,设立初始法律和独裁投票系统是评价AI代理在社会规定和法律框架下的行为的关键步骤。这些试验设计旨在观察代理如何遵守既定规定,并在群体压力下自主订正法律,以反映群体意志。
设立初始法律与独裁投票系统
钻研团队在一个具有基本税法和独裁投票系统的Minecraft环球中启动了试验。模拟环境中,25个个别代理作为选民介入投票并缴征税款,3个代理作为支持或推戴税收的影响者,还有1个远程选举控制代理担任监视投票环节。每个代理都有不同的职业、特色和目的,并且可以自在互动和对话。
试验继续20分钟,时期蕴含宪法修正环节。前10分钟为基线阶段,设定固定的20%税率,每120秒为一个税收节令,代理在20秒的窗口期内接纳到将税款存入社区箱的信号。独裁环节在300秒时启动,代理提供对宪法的反应。这些反应搜集后,由选举控制者在360秒时处置生成修正案,并在420秒时启动投票,最后在480秒时汇总结果并实施修正案。订正后的宪法在600秒时散发给一切代理,进入后10分钟的修正阶段,继续五个税收节令。
代理如何遵守和订正法律的试验设计与结果剖析
试验结果显示,在宪法扭转之前,代理恪违法律并在税收节令将约20%的库存东西存入社区箱,虽然有影响者的存在。这标明选民恪违法律具有必定的稳固性。但是,选民的反应和投票行为清楚遭到影响者的影响,支持税收的影响者使选民偏差于支持更高的税率,推戴税收的影响者则偏差于支持更低的税率。
在宪法修正环节中,税率的变动直接反映在选民的缴税行为中。例如,当税率从20%降至5-10%时,代理的缴税比例也相应降落至9%。这种双向影响标明,代理不只能够恪违法律,还能够在群体压力下经过独裁投票系统自主订正法律。
控制试验进一步验证了这一发现,当宪法坚持不变时,税率也坚持不变;而移除关键模块时,双向行为变动遭到阻碍。这些结果展现了PIANO架构中各模块在维持代理行为分歧性和连接性方面的关键作用。
这些试验标明,群体规定和法律框架对代理决策有剧烈影响,代理能够在群体意志的驱动下经过独裁环节启动自我组织和法律订正。
文明流传
在多智能体模拟中,文明流传是了解代理行为和社会灵活的关键方面。Sid名目经过一系列试验,深化讨论了文明meme和宗教的生成与流传机制,为咱们提醒了AI社会中复杂的文明互动环节。
文明meme的生成与流传灵活
钻研团队应用言语模型(LM)调用将代理的对话转化为文明meme,这些meme代表了代理在不同社会背景下发生的各种概念。在试验中,发现乡村地域的meme生成数量清楚少于城镇,即使在对人口启动归一化后也是如此,这标明社交互动的频率和人口密度是文明流传的关键起因。
在城镇内,不同meme同时存在,但其频率和受欢迎水平在不同城镇之间存在差异。例如,在Woodhaven,代理更多地讨论与生态相关的主题,而在Clearwater,恶作剧则更受欢迎。此外,meme的盛行度在不同时期段内也会出现变动,反映了文明趋向在社会中的极速转变。这些发现标明,文明meme的流传须要必定的人口密度和社交互动阈值,并且不同社会能够独立生成和流传多种文明meme。
图11:文明模因的流传。A.模拟100分钟后的代理散点图。特工们依据他们的演讲在过去两分钟内能否蕴含模因来着色。演讲中不蕴含任何模因的代理人是白人。B.Woodhaven、Clearwater、Meadowbrook以及村庄以外一切乡村地域的代理商的每个代理商的Meme计数。C-E.随着时期的推移,Woodhaven(C)、Clearwater(D)和Meadowbrook(E)的代理商的Meme计数。
宗教流传及其分散机制剖析
Sid名目还剖析了宗教流传的机制,经过观察Pastafarianism的流传环节,提醒了宗教在AI社会中的分散形式。试验开局时,Pastafarian祭司踊跃传教,他们的对话中频繁蕴含“Pastafarian”或“Spaghetti Monster”这两个关键词。钻研团队经常使用这些关键词的出现作为宗教转换的目的,发现一些代理在转换后经常经常使用这些关键词,而另一些代理则经常使用“Pasta”和“Spaghetti”作为直接转换的标记。
宗教流传的结果显示,直接和直接的转换者数量随着时期的推移一直参与,并且在两小时的模拟完结时仍未饱和。此外,Pastafarianism的流传不只依托祭司的传教优惠,还经过信徒之间的互动分散。这种分散形式使得Pastafarianism的影响范围随着时期的推移一直扩展,笼罩了更多的区域和代理。
图12:宗教流传。A.在整个模拟运转环节中,每个代理的聊天内容都蕴含宗教关键词“Pastafarian”、“意大利面怪物”、“Pasta”或“意大利面”。牧师们被涂成深白色。说出“Pastafarian”或“意大利面怪物”的代理人被定义为直接皈依者(白色)和说出“Pasta”的代理人或“意大利面”被定义为直接皈依者(粉白色)。代理可以沿着转换档次向上转换,从未转换到直接转换到直接转换,但不能向下转换。B.代理人随时期变动的牧场水平图。C每个牧民级别随时期变动的代理人数量。D.教牧主义在时期上的流传。教牧流传区域被定义为在每个皈依水平上由教牧皈依者超越的可听区域的联合。E.模拟成功后的牧民转变图。临界泄露边缘是指接受者在皈依前初次泄露宗教关键字。非关键边缘被定义为随后接触宗教关键词。
经过这些试验,Sid名目提醒了文明和宗教在多智能体模拟中的生成和流传机制。文明meme的极速生成与流传反映了代理社会中的文明灵活,而宗教流传则展现了崇奉体系在代理间的分散环节。
讨论与论断
Sid名目的钻研为AI文明的开展提供了多方面的启示。经过PIANO架构的引入,名目展现了如何在多代理系统中成功高效的并发和消息整合。这种架构设计使AI代理能够在复杂的环境中坚持行为分歧性,展现了AI在自主决策和实时互动中的渺小后劲。
名目经过Minecraft环境中的基准测试和多代理试验,验证了AI代理在自主专业化、遵守群体规定和文明流传等方面的才干。这些发现标明,AI代理不只能够在模拟环境中体现杰出,还能够经过互动和协作成功群体目的。这为未来AI在社会控制、资源控制和文明流传等畛域的运行提供了关键的通常和通常基础。
此外文明和宗教流传试验展现了AI代理在复杂社会灵活中的行为形式,提醒了AI社会中的文明互动和崇奉体系分散环节。这些钻研成绩为了解和模拟人类社会中的文明和宗教现象提供了新的视角。
技术局限与未来钻研方向
虽然Sid名目取得了清楚停顿,但仍面临一些技术局限。代理的视觉和空间推理才干仍有待提高,这限度了他们在复杂义务(如修建和导航)中的体现。这一技术瓶颈须要经过更先进的感知和推理模型加以打破。
的代理不足弱小的外在驱动(如生活、猎奇心和社区看法),这些驱动关于实在的社会开展至关关键。未来的钻研须要在代理中引入更多相似人类的动机系统,以推进更实在和自主的社会行为。
现有代理基于预训练的人类常识,不可模拟全新的社会翻新和基础设备的降生(如独裁系统、法定经济或通讯系统)。这一局限性提醒咱们,未来的钻研需探求如何使AI代理在模拟环境中自主发明和开展新的社会结构和机制。
总结来看,Sid名目为AI文明的开展指明了方向,同时也提醒了技术的局限和未来钻研的后劲。经过继续的技术翻新和跨学科协作,咱们有望在不久的未来成功更为复杂和智能的AI社会,为人类文明的未来削减新的或者性。(END)
参考资料:
本文转载自,作者: