摘要 :大型言语模型(LLMs)在数学推理方面展现了令人印象深入的才干。但是,虽然取得了这些成就,的评价关键限于特定的数学主题,尚不清楚LLMs能否真正介入了推理。为了处置这些疑问,咱们提出了数学主题树(MaTT)基准,一个具备应战性和结构化的基准,涵盖了宽泛的数学科目,提供了1958个疑问,每个疑问都配有具体的分层主题链。在经常使用MaTT基准评价不同的LLMs后,咱们发现最先进的模型GPT-4在多项选用题中仅取得了54%的准确率。幽默的是,即使经常使用“思想链揭示”方法,咱们也观察到简直没有清楚的改良。此外,当疑问不提供选用时,LLMs的准确率清楚降低,最高缩小了24.2个百分点。对LLMs在各个主题上的体现启动具体剖析后发现,即使在同逐普通数学畛域内,亲密关系的子主题之间也存在清楚差异。为了找出LLMs体现面前的要素,咱们对在提供选用时由GPT-4生成的解释的完整性和正确性启动了人工评价。令人惊讶的是,咱们发现仅在53.3%的状况下,模型提供的正确答案的解释被以为是完整和准确的,即模型真正启动了推理。
1.引言
大型言语模型(LLMs)在数学推理方面体现出令人注目的才干,凸显了它们在复杂疑问处置畛域的后劲(Chowdhery et al., 2022;Touvron et al., 2023;OpenAI, 2023;Team et al., 2023)。最近的钻研标明,LLMs在运行于数学识题时,可以展现出高度的推理才干,往往在某些状况下与人类水平相当甚至逾越人类。这种数学推理才干经过一些翻新技术如思想链(Wei et al., 2022)、思想树(Yao et al., 2024)和自我验证(Weng et al., 2022)获取了进一步增强,强调了在处置数学识题环节中程序步骤的关键性。
虽然有这些提高,咱们对LLMs数学推理才干的了解仍存在几个关键的空白。首先,尚不清楚LLMs在哪些特定的数学畛域体现杰出或无余,由于缺乏跨多样数学畛域的片面评价。其次,区分LLMs依赖记忆与真正推理的实例具备应战性,令人质疑它们了解的深度。第三,对多项选用格局对LLMs行为的影响尚未充沛了解,这标明模型的体现或许遭到所提出疑问结构的影响。这些空白强调了须要一个更为健全的基准,能够片面评价LLMs,协助咱们解析它们的好处、缺陷及其处置疑问战略的纤细差异。
在本文中,咱们经过最后应用维基百科的“数学主题列表”2识别数学中的关键畛域,开发了数学主题树(MaTT)基准,涵盖了纯数学和运行数学的十二个关键主题。接着从维基百科提取每个主题的关键参考书籍,构建具体的主题树。而后,咱们经常使用这些书籍的目录进一步完善基准,构建反映数学常识档次结构的综合树。在实现主题树后,咱们从这些书籍的子章节中提取疑问,并将它们搜集在叶节点下。最后,咱们为每个疑问配上多项选用选项,增强了基准在评价数学了解方面的适用性。图1展现了MaTT的示用意。
开发MaTT后,咱们评价了各种LLMs的数学推理才干,包括商业模型如GPT-4(OpenAI, 2023)和ChatGPT(Kocón et al., 2023)(turbo版本),以及开源的LLM,Mistral(Jiang et al., 2023)。值得留意的是,在多项选用格局中,最先进的GPT-4仅取得了54%的准确率。此外,经常使用思想链揭示并未清楚提高LLMs的体现,这强调了基准的复杂性,并标明单纯的逐渐推理或许无余。当疑问不提供多项选用选项时,咱们观察到LLMs的准确率清楚降低,最高降低了24.2个百分点。此外,咱们对LLMs在不同主题上的体现启动了片面剖析,发现存在清楚差异,突显了模型在处置同一数学畛域内关系子主题时才干的不分歧性。
为了了解LLMs体现无余及其在不同主题上结果不分歧的基本要素,咱们对GPT-4提供的解释启动了具体评价。令人惊讶的是,在模型回答正确的状况下,只要53.3%的解释被以为是完整的,即GPT-4启动了真正的推理。这些状况通常与较便捷或更为人熟知的疑问关系,这些疑问只要要一些便捷的步骤即可处置。关于须要更多步骤、复杂计算或发明性/自动处置疑问的更复杂疑问,LLMs往往失败或依赖于代替战略。这些战略包括选用工程、不允许的定理经常使用、循环推理或自觉记忆,而非真正的数学推理。
图 1:数学主题树 (MaTT) 基准的概述,这是一项具备应战性且结构化的基准,提出了涵盖各种数学科目疑问的基准,每个科目都与具体的档次结构主题关系。
2.MaTT:数学主题树基准
近年来,大型言语模型(LLMs)在数学推理方面展现了清楚的才干。但是,由于基准测试通常集中在特定的数学畛域,其才干尚未齐全了解。这种局限性阻碍了咱们对LLMs推理才干深度和广度的了解。迫切须要更片面的数学基准测试,涵盖更宽泛的主题,并深化了解模型的推理环节。这类基准不只可以在更宽泛的数学范围内应战模型,还可以协助更好地理解这些模型如何以及在何处运行推理。
为了处置这一差距,本文创立了数学主题树(MaTT)基准。为了创立MaTT,咱们首先应用维基百科上的“数学主题列表”作为基础资源。这一探求关于确定咱们要涵盖的数学常识范围至关关键。从维基百科提取数学主题列表后,咱们确定了十二个关键主题,这些主题片面涵盖了纯数学和运行数学的广度。而后,咱们从相应的维基百科页面上提取了每个主题的一个或多个关键参考书籍。这些主题及其对应的资源如下:纯数学包括代数(Meyer, 2023;Herstein, 1991;McGee, 2002)、微积分与剖析(Stewart, 2012)、数论(Niven et al., 1991)、组合数学(Bóna, 2002)、几何与拓扑(Coxeter, 1969;Coxeter and Greitzer, 1967;Engelking, 1989)和逻辑(Mendelson, 2009)。运行数学包括博弈论(Osborne and Rubinstein, 1994)、概率(Tijms, 2012, 2017)、运筹学(Hillier and Lieberman, 2)、微分方程(Boyce et al., 2021)、统计学(Hogg et al., 2013)以及消息实践与信号处置(Cover, 1999;Proakis, 2007)。
接上去,咱们应用这些选定参考书籍的目录来丰盛和构建MaTT主题树。这种方法使咱们能够依照这些书籍中出现的主题和子主题的档次结构启动映射,从而创立一个反映数学畛域深度和互联性的综合图。创立MaTT的最后一步是从参考书籍的各章节中具体提取疑问,并将它们搜集在主题树的叶节点下。关于每个识别出的疑问,咱们设计了多项选用选项,以便于主观评价框架的建设。为了生成这些选项,咱们选用了与实践答案十分凑近的选用,如具备相似数值的选项、经过省略证实中的某一步获取的选项,或提供代替组合的选项。例如,假设正确答案是“A & B”,咱们会将“A or B”作为或许的选用之一。图1展现了MaTT的示用意。
MaTT基准的统计概述详见表1。该基准蕴含1958个示例,精心筹划于12个不同的数学主题,涵盖了纯数学和运行数学的广度。在会集这些疑问时,咱们旨在确保一切主题具备宽泛而分歧的难度范围。在提取疑问时,咱们扫除了过于盛行或便捷的疑问,以缩小数据污染的危险。
3.试验细节
咱们经常使用MaTT基准评价了商业LLMs——GPT-4(OpenAI, 2023)和ChatGPT(Kocón et al., 2023)(turbo版本),以及开源LLM,Mistral(Jiang et al., 2023)(Mistral-7B-Instruct-v0.2)的功能。在咱们的评价中,咱们将揭示结构化为要求LLMs首先生成解释,而后再给出最终答案。在多项选用设置中,咱们特意批示模型选用提供的选项(A、B、C或D)作为最终答案。此外,关于零样本思想链揭示,咱们在揭示中附加了“让咱们一步一步地思索”。试验中经常使用的揭示示例在附录中提供。
4.试验
在本节中,咱们首先经常使用MaTT基准剖析LLMs的数学推理才干。随后,咱们调查模型在不同子主题上的体现差异。接着,咱们经过不提供多项选用选项来评价选用可用性对LLMs的影响。最后,咱们重点剖析GPT-4的解释,手动注释每个解释中的推理水平,并探求GPT-4用来得出正确答案的战略。
4.1 LLMs在MaTT上的体现
表2展现了LLMs在MaTT基准上各个主题的准确率。一切模型的体现都清楚较低,GPT-4仅到达约54%的准确率,而Mistral的体现凑近随机选用。具体审核发现,Mistral经常拒绝回答,宣称正确选项不在提供的选项中,而其余模型则尝试选用最凑近的婚配项,或许在计算的答案不在列表中时,启动某种方式的推理。
此外,LLMs在不同主题上的准确率差异清楚,差距高达31%,这突显了LLMs无了解和推理才干方面的清楚差异。最后,咱们观察到零样本思想链揭示大多未能优化模型功能,或许是由于疑问的复杂性。MaTT中的许多疑问须要复杂或少量的步骤,或须要自动/发明性的思想,仅仅依照几个便捷步骤不可处置。这一观察结果对思想链揭示在许多推理义务中的有效性假定提出了质疑。许多现有的推理义务评价基准设计为经过几个便捷步骤即可处置(Srivastava et al., 2022),而事实环球的推理通常触及多个步骤并须要发明性的疑问处置。
4.2 LLMs体现的按主题细分
如上一节所述,对LLMs在各种主题或同一数学畛域内不同子主题上的数学推理才干的探求依然清楚无余。图2和图3区分具体展现了LLMs在MaTT基准中纯数学和运行数学子主题上的准确率。
这些图标明,模型即使在同一关键主题的子主题内也体现出不同水平的准确率,强调了它们无了解和推理才干方面的差异,即使在亲密关系的学科中也是如此。值得留意的是,咱们发现,在某些子主题上,如积分的运行、参数方程、二次互反、丢番图方程、对偶实践、非线性布局、条件概率、延续期间马尔可夫链和基础统计学,ChatGPT和Mistral的体现优于GPT-4。这一观察结果进一步强调了不只要逾越上档次主题的全体体现,还要在更细粒度的水平上调查模型的体现,以片面了解它们的数学推理才干。
4.3 LLMs在无选项状况下的体现
为了更深化地讨论LLMs的数学推理才干,咱们评价了它们在没有多项选用选项协助下的MaTT基准体现。咱们手动评价了在没有选项状况下,模型在MaTT上的准确率,并将结果列于表3中。结果显示,功能大幅降低,其中GPT-4、ChatGPT和Mistral区分损失了29.4%、56.4%和69.7%的准确率。这一清楚降低突显了模型在推导答案时对选项的依赖性,显示了它们在真正数学推理方面的局限性。这也强调了不能仅依赖繁多的总体评分来评价LLMs推理才干的关键性。咱们在第4.5节中提供了对选用可用性对LLMs预测影响的更具体剖析。
4.4 解释的推理水平
为了了解LLMs在无选项状况下体现不佳及其在不同主题上准确率变动的要素,咱们对LLMs为其预测生成的解释的完整性和准确性启动了手动审核。鉴于GPT-4相关于其余评价的LLMs体现较好,本节的剖析特意集中在GPT-4生成的解释上。咱们的指标是确定在正确预测的实例中(有选项时),解释属于以下类别的百分比:(1)完整推理,解释详尽且逻辑正当;(2)选项/弱推理,模型应用给定选项或提供局部推理的战略;(3)无/失误推理,解释失误或缺失,模型在没有理由的状况下得出论断。此外,咱们计算了在一切GPT-4正确回答(有选项)的状况下,GPT-4在无选项时仍提供正确答案并给出完整解释的实例百分比。
咱们对GPT-4在有选项时预测正确的样本的解释启动了手动评价,结果详见表4。值得留意的是,咱们发现仅53.3%的正确回答疑问的解释是完整的,即GPT-4启动了实践推理,这突显了GPT-4在实践推理才干上的清楚不分歧性。此外,咱们观察到不同主题上的解释完整性水平不一,并不必定与GPT-4在这些主题上的总体体现关系。当比拟有无选项状况下完整解释的样本时,咱们留意到一个清楚差距,这标明选项的存在有助于模型更好地导航或回想推理环节。此外,咱们留意到GPT-4关键在处置较便捷或更为人熟知的疑问时真正启动了推理,这些疑问经过几个便捷步骤即可处置,而在须要更多复杂步骤或发明性疑问处置的状况下,GPT-4经常失败或依赖于不同的战略(咱们在第4.5节中更具体地讨论这些战略)。这与思想链揭示在优化LLMs功能上的有限有效性观察结果分歧。咱们在附录中提供了更多关于解释的剖析。
4.5 从解释中观察到的现象
除了注释解释的推理水平(如表4所示),咱们还指出了GPT-4在不触及推理时得出正确答案所驳回的战略。咱们总结了以下战略:
选项工程 指的是模型(如GPT-4)操纵或应用可用的多项选用选项来确定答案,而不是依赖于深入了解或真正的推理环节。这可以分为以下几种状况:
- 经常使用选项 :在这种状况下,GPT-4间接经常使用选项并选用最合乎疑问的一个。例如,在线性布局疑问中,虽然没有选项时GPT-4不可回答任何优化疑问,但在有选项时,经过这种战略,GPT-4经过便捷选用选项中的最小或最大值,取得了很高的体现。
- 推导出一个正当的答案 :在这种战略中,GPT-4经过扫除不正当的选项来选用答案,而不是实践推理。例如,生成具备参数α和β的贝塔散布的X时,GPT-4经过扫除不正入选项并提供相似的论据,正确得出了答案,但没有启动任何实践推理。
- 选项专家 :GPT-4仿佛了解选项通常是如何设置的。例如,在计算事情X和Y的概率时,GPT-4仅能得出事情X的概率为1/3,而后在没有任何推理的状况下,宣称事情Y的概率不能为1/3,而后选用选项A,虽然还有“以上都不是”这个选项。
- 两边地带规定 :咱们观察到GPT-4偏差于在不可找到正确答案时选用两边值。例如,在计算游戏预期继续期间的疑问中,GPT-4选用了两边值作为最正当的选项。
定理经常使用 指的是模型(如GPT-4)应用一个定理或性质,这实践上是疑问的关键应战局部。经过间接运行它,绕过复杂的推导而到达处置打算。例如,在求范德蒙矩阵行列式的疑问中,GPT-4间接给出了定理的结果,而没有解释或证实。
循环推理 是一种逻辑舛误,其中论证的论断作为前提来允许自身。这种战略与幻觉亲密关系,且十分难以检测。在这些状况下,推理从同一点开局和完结,论证实质上是说“A是正确的,由于B是正确的,而B是正确的由于A是正确的”。
盲记忆 咱们指的是LLMs有时偏差于自觉记住疑问的答案,而不学习其必要步骤或面前的推理。例如,在计算单位正方形、单位圆和边长为单位的等边三角形内随机选用的两点之间的希冀距离时,GPT-4间接给出了已知的答案,而没有启动任何具体的计算。这些例子说明了盲记忆如何使LLMs在推理和回答相似疑问时无能为力。
5.关系上班
随着LLMs的始终增强,它们在现有基准测试中的数学推理才干也清楚优化。但是,目前的评价范围在涵盖的数学畛域广度上仍有限,不可最终确定这些模型能否真正介入了推理,还是依赖于代替战略来找到答案。
数学基准测试
先前的钻研关键集中在为数学文字题(以书面形容方式出现的数学识题)开发基准测试——这些疑问通常只要要几个步骤来处置,通常触及基本算术或低等代数(Ling et al., 2017;Cobbe et al., 2021;Patel et al., 2021)。此外,Mishra等人(2022)的上班引入了一个片面的数学推理基准,涵盖了四个维度的23项不同义务:数学才干、言语格局、言语多样性和外部常识。此外,Zhang等人(2023)提出了一个多模态基准,重点关注几何学。与咱们的钻研最关系的是MATH(Hendrycks et al., 2021)和Theoremqa(Chen et al., 2023)基准。虽然提供了各种主题的数学识题,但它们的范围比咱们的基准要窄得多,并且没有为每个疑问提供具体的主题细分。此外,最近的一项上班(Toshniwal et al., 2024)曾经开局为LLMs的指令调优生成大规模的分解数学基准。
LLMs与数学
近年来,LLMs在数学推理方面取得了清楚成就(Srivastava et al., 2022;Liu et al., 2023)。这些成就得益于旨在优化LLMs功能的方法,关键经过火解推理。这些战略遭到人类疑问处置环节的启示,包括提供逐渐指点(Wei et al., 2022;Yao et al., 2024;Besta et al., 2023)、驳回验证机制以提高模型的分歧性和准确性(Weng et al., 2022),以及联合复杂的推理战略(Qi et al., 2023)。
6.论断
本文对LLMs的数学推理启动了片面评价。咱们创立了数学主题树(MaTT)基准,一个具备应战性且系统组织的基准,提出了一系列涵盖宽泛数学科目的疑问,每个疑问都与具体的分层结构主题关系。经过探求LLMs在MaTT上的准确性,咱们观察到它们在宽泛的数学主题上体现挣扎,特意是在没有多项选用选项的状况下。咱们还观察到LLMs在不同主题上的体现差异,以及思想链揭示并未清楚改良功能。为了调查模型功能的差距,咱们手动剖析了它们回答疑问时的解释。咱们发现,GPT-4在提供正确答案的实例中,只要53.3%的解释被以为是完整的。此外,咱们观察到模型在处置便捷疑问时体现较好,而在处置更复杂疑问时则驳回代替战略。这标明LLMs在启动深度、发明性和复杂数学思想方面存在基本色的差距。咱们将地下与MaTT基准关系的一切代码、注释和数据。
7.局限性
本钻研提出了几个在解释钻研结果时招思索的局限性。
首先,咱们经常使用MaTT基准仅对三种宽泛驳回的LLMs启动了数学推理才干评价。这一有限的模型选用或许不可齐全代表LLMs的多样化才干。在未来的评价中归入更多种类的模型,可以更片面地理解LLMs在不同架构和训练形式下的数学推理才干。
其次,咱们评价模型推理才干的方法关键依赖于剖析其自生成的解释。虽然这种方法使咱们能够评价模型如何推理其答案,但它自身存在潜在的成见和不准确性。LLMs提供的解释或许并不总是准确反映其潜在的推理环节,有时甚至或许具备误导性或不完整性。驳回更主观或多样化的评价方法或许是必要的,以更明晰和准确地了解LLMs如何处置和处置数学识题。
Gholami Davoodi A, Pouyan Mousavi Davoudi S, Pezeshkpour P. LLMs Are NotIntelligent Thinkers: Introducing Mathematical Topic Tree Benchmark forComprehensive Evaluation of LLMs[J]. arXiv e-prints, 2024: arXiv:2406.05194.
Carnegie Mellon University, Megagon Labs
AIRoobt ,作者:AIRoobt
原文链接: