虽然LLMs在生成人造言语文本方面体现杰出,但在推理义务中的体现却不尽善尽美。推理义务须要模型具有更上档次的认知才干,包括逻辑推理、因果相关剖析和战略布局等。但是现有的LLMs在这些方面的才干有限,关键表如今缺乏深度推理才干,LLMs在处置复杂推理义务时,往往依赖于便捷的形式婚配和统计法令,缺乏真正的逻辑推理才干。易受幻觉影响,LLMs在生成文本时,有时会发生与理想不符或有意义的内容,这被称为“幻觉”现象。这在推理义务中尤为清楚,由于推理义务须要模型生成高度准确和分歧的答案。依赖人工揭示,现有的许多推理方法,如链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency),都依赖于人工设计的揭示和示例,这限度了它们的泛化才干和智能化水平。
为了处置这些疑问,纽约cosa Computing Inc.公司、NASA ARC量子人工智能试验室等多个组织的团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。该框架经过组合优化技术,智能生成用于推理义务的揭示,从而提高LLMs在推理义务中的体现。CR框架的**理想是将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,经过优化选用有用的理由子集,构建链式思想格调的揭示。
本钻研由来自多个机构的专家团队协作成功,涵盖了生成式AI、量子计算、数据迷信和优化算法等多个畛域。钻研团队成员有纽约Icosa Computing Inc.公司成员Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于纽约的公司,专一于计算技术和人工智能的前沿钻研与开发。团队成员在生成式AI和优化算法方面具有丰盛的阅历。NASA ARC的量子人工智能试验室的成员Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能试验室(QuAIL)努力于探求量子计算在人工智能中的运行。该试验室位于加利福尼亚州的Moffett Field,钻研重点包括量子优化和量子机器学习。NASA ARC数据迷信组的成员Ata Akbari Asanjan,NASA ARC数据迷信组是NASA ARC的一局部,专一于数据剖析和机器学习技术的钻研与运行。团队成员在大数据处置和剖析方面具有深沉的专业常识。USRA初级计算迷信钻研所的成员P. Aaron Lott, Davide Venturelli,USRA初级计算迷信钻研所(RIACS)与NASA协作,启动初级计算和人工智能畛域的钻研。钻研所位于加利福尼亚州的Moffett Field,努力于推进计算迷信的前沿开展。惠普试验室的LSIP(Large-Scale Integrated Photonics)部门成员Masoud Mohseni,惠普试验室的LSIP(Large-Scale Integrated Photonics)部门位于加利福尼亚州Milpitas,专一于大规模集成光子学和量子计算的钻研。团队成员在物理学和计算迷信方面具有丰盛的钻研阅历。DataStax 公司的成员Alan Ho,>LLMs概述
大型言语模型(Large Language Models, LLMs)是基于深度学习技术的机器学习模型,专门用于处置和生成人造言语文本。与传统的言语模型相比,LLMs领有极端庞大的参数量,理论到达数十亿甚至上百亿级别。这些模型经过在海量文本数据上启动训练,能够捕捉言语中的复杂形式和结构,从而生成高度连接和人造的文本。
虽然LLMs在生成和了解人造言语方面体现杰出,但在处置须要深度推理的义务时仍存在必定的局限性。为了提高LLMs的推理才干,钻研人员提出了多种推理方法,其中最具代表性的是链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency)。
1. 链式思想(CoT)
链式思想是一种经过在揭示中参与两边推理步骤来增强LLMs推理才干的方法。详细来说,CoT方法经过手动标注的示例,展现了从疑问到答案的推理环节。这些示例被用作揭示,指点LLMs生成蕴含推理门路的回答。
CoT方法能够清楚提高LLMs在推理义务中的体现,特意是在须要多步推理的复杂义务中。
局限性是CoT方法依赖于人工标注的示例,这不只耗时耗力,而且这些示例或者不可泛化到不同类型的义务。此外,手动标注的示例数量有限,难以笼罩一切或者的推理门路。
2. 自分歧性(Self-Consistency)
自分歧性是一种改良的解码方法,旨在提高CoT揭示的性能。与贪心解码不同,自分歧性方法经过在非零温度下搜集多个样本,并选用发生次数最多的答案。这种方法基于这样一个直观的假定:推理疑问或者有多条正确的推理门路,但失误的推理门路会造成不同的失误答案。
自分歧性能够经过对多个推理门路启动边沿化处置,生成更准确的答案。这种方法在处置复杂推理义务时体现尤为杰出。
自分歧性方法雷同依赖于手动标注的示例,并且须要少量计算资源来生成和评价多个样本。此外,这种方法在处置具有高度不确定性的义务时,或者会面临性能瓶颈。
虽然这些现有的推理方法在必定水平上提高了LLMs的推理才干,但它们的局限性也显而易见。为了克制这些局限性,本文提出了一种新的框架——组合推理(Combinatorial Reasoning, CR),经过组合优化技术,智能生成用于推理义务的揭示,从而进一步优化LLMs在推理义务中的体现。
图1:组合推理的上班流程。LLM对初始揭示启动N次处置,并经过语义婚配环节对答案启动过滤,以发生具有不同要素的答案。该系综被映射到由Ising机器处置的QUBO疑问中。最终处置打算确定了一组要参与到最终LLM调用揭示中的要素,该调用将确定最终答案。
组合推理(CR)框架
CR框架的提出
随着生成式人工智能(Generative AI)和大型言语模型(LLMs)的极速开展,这些模型在人造言语处置义务中展现了弱小的才干。但是虽然LLMs在生成人造言语文本方面体现杰出,但在处置须要深度推理的义务时仍存在清楚的局限性。现有的推理方法,如链式思想(Chain of Thought, CoT)和自分歧性(Self-Consistency),虽然在必定水平上提高了LLMs的推理才干,但它们依赖于人工标注的示例,难以成功智能化和泛化。
为了克制这些局限性,钻研团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。CR框架的**理想是经过组合优化技术,智能生成用于推理义务的揭示,从而提高LLMs在推理义务中的体现。详细来说,CR框架经过将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,并应用优化技术选用有用的理由子集,构建链式思想格调的揭示。
CR框架的四个阶段
CR框架包括四个关键阶段:理由采样、QUBO映射、组合优化求解和最终揭示创立。以下是每个阶段的详细引见。
理由采样
在CR框架的第一个阶段,钻研团队须要从LLM中采样理由。详细步骤如下:
经过上述步骤,钻研团队可以获取以下汇合:
这些计数是组合推理的基础,钻研团队将经常使用它们来计算QUBO映射中所需的量。
QUBO映射
在CR框架的第二个阶段,钻研团队将采样的理由映射为二次无解放二进制优化(QUBO)疑问。详细步骤如下:
经过上述步骤,钻研团队可以将采样的理由映射为一个QUBO疑问,预备启动组合优化求解。
组合优化求解
在CR框架的第三个阶段,钻研团队经常使用伊辛机和其余优化技术求解QUBO疑问。详细步骤如下:
经过上述步骤,钻研团队可以获取优化后的理由汇合,为最终揭示创立做好预备。
最终揭示创立
在CR框架的最后一个阶段,钻研团队依据优化结果创立最终的揭示,并用于LLM的查问。详细步骤如下:
经过上述步骤,钻研团队可以生成一个蕴含优化理由的揭示,提高LLM在推理义务中的体现。
组合推理(CR)框架经过组合优化技术,智能生成用于推理义务的揭示,克制了现有推理方法的局限性。CR框架包括理由采样、QUBO映射、组合优化求解和最终揭示创立四个阶段,经过优化选用有用的理由子集,构建链式思想格调的揭示,从而提高LLMs在推理义务中的体现。
试验结果与剖析
试验设置
钻研团队经常使用了GPT-3.5-turbo-0125作为试验所用的大型言语模型(LLM)。GPT-3.5-turbo是OpenAI开发的一系列模型之一,专门用于生成类人人造言语文本。该模型具有16,385个高低文窗口,并能前往最多4,096个令牌的输入。为了确保试验的偏心性和分歧性,钻研团队选用了BIG-bench Hard(BBH)义务集启动评价。BBH义务集蕴含了一系列推理导向的疑问,这些疑问在过去对LLMs来说不时是具有应战性的。
为了节俭推理期间和老本,钻研团队从每个子义务中随机抽取了50个疑问,合计1350个疑问,组成了一个评价集。在这个评价集上,钻研团队将CR框架与以下几种方法启动比拟:
无理由采样阶段,钻研团队对LLM启动了N=210次采样,温度设为1,以搜集足够的独立理由,并计算它们的散布和相关矩阵。相似度阈值ζ设为0.90,这一数值是经过对测试疑问的阅历确定的。在运转QUBO映射之前,钻研团队经常使用Optuna框架对映射参数启动了调优,选用了最优的参数值。
图2:组合推理(CR)相关于其余方法的性能。人类和USP结果区分来自BBH和USP的出版物。USP在不同但可比拟的LLM PaLM 2-M上启动评价。
试验结果
试验结果显示,CR框架在BBH义务集上的体现优于其余零样本方法。详细结果如下:
图3:具有线性CR和随机要素的二次CR(与注释相反)的基线剖析。十个数据集的总体性能为二次CR:65.2%,线性CR:68.2%,随机:57.4%. 包括0次和0次CoT结果以供参考。依据0-发射CoT的性能对各个义务启动排序。
此外钻研团队还启动了人工评价,验证了CR框架在每个阶段的成果。结果标明,CR框架经过优化清楚缩小了独立理由的数量,提高了揭示的品质。
结果剖析
经过对试验结果的剖析,钻研团队发现CR框架在不同义务上的体现具有以下长处和无余:
长处是
无余的疑问是
CR框架经过组合优化技术,清楚提高了LLM在推理义务中的体现,展现了其在生成式AI推理义务中的渺小后劲。但是,未来的钻研仍需在计算资源优化、复杂义务处置和语义婚配改良等方面进后退一步探求,以充散施展CR框架的长处。
钻研总结
论文提出的组合推理(Combinatorial Reasoning, CR)框架,经过组合优化技术,清楚优化了大型言语模型(LLMs)在推理义务中的体现。
CR框架经过将从LLM管道中采样的理由映射为二次无解放二进制优化(QUBO)疑问,并应用优化技术选用有用的理由子集,智能生成用于推理义务的揭示。这一方法缩小了对人工标注示例的依赖,提高了揭示生成的智能化水平。
经过选用有用的理由子集,CR框架能够构建链式思想(Chain of Thought, CoT)格调的揭示,清楚提高了LLM在推理义务中的体现。试验结果显示,CR框架在BIG-bench Hard(BBH)义务集上的平均准确率为59.88%,优于其余零样本方法。
CR框架能够顺应不同类型的推理义务,经过优化选用最相关的理由,提高了揭示的准确性和相关性。试验结果标明,CR框架在多个推理义务上体现优秀,展现了其宽泛的实用性。
经过在GPT-3.5-turbo-0125模型上启动试验,验证了CR框架的有效性。试验结果显示,CR框架在平均体现和排名上均优于其余零样本方法,证实了其在推理义务中的长处。
虽然CR框架在推理义务中体现杰出,但仍有一些无余之处须要改良。例如,计算资源需求高、复杂义务体现有限以及语义婚配程序有待优化等。这些疑问为未来的钻研提供了方向和应战。
CR框架在生成式AI推理义务中的运行前景宽广,未来的钻研可以在以下几个方面启动探求和改良。
优化期间和准确性:进一步优化语义婚配程序,经过调整相似度阈值或驳回更初级的语义婚配算法,提高QUBO映射的有效性。QUBO映射:优化指标函数的构建,参与对高阶相关性的思考,钻研图的属性和自旋玻璃的物理个性,以提高最终答案的准确性。组合优化求解器:探求经常使用更高效的求解器,如配件高效的数字成功和量子求解器,经过混合战略进一步提高求解效率和准确性。
框架的泛化:将定理证实器(如Z3)集成到CR框架中,作为后处置步骤来消弭抵触理由,联合概率求解器和确定性求解器的方法,在开明域疑问上成功更高效的推理。与检索增强生成(RAG)的集成:将检索增强生成技术集成到CR框架中,经过语义搜查从常识库中检索相关消息,并将其作为高低文参与到理由采样环节中,提高推理的准确性和相关性。
在不同运行场景中的后劲:在金融畛域CR框架可以用于危险评价、投资组合优化和市场预测等义务,经过智能生成推理揭示,提高决策的准确性和效率。医疗畛域:在医疗畛域,CR框架可以用于疾病诊断、治疗打算介绍和医学钻研,经过联合医学常识库和推理才干,提供更精准的医疗倡导。法律畛域:在法律畛域,CR框架可以用于法律推理、案件剖析和法律文书生成,经过智能生成法律推理门路,提高法律上班的效率和准确性。
组合推理(CR)框架经过组合优化技术,清楚提高了LLM在推理义务中的体现,展现了其在生成式AI推理义务中的渺小后劲。未来的钻研可以在优化期间和准确性、框架的泛化和不同运行场景的裁减等方面进后退一步探求,以充散施展CR框架的长处。经过不时改良和裁减,CR框架有望在更多畛域中成功宽泛运行,为复杂推理义务提供更高效和智能的处置打算。(END)
参考资料: