LLMs的自动实质是什么?
在之前的文章中,我谈到了评价大型言语模型才干的艰巨。这些模型在许多基准测试中体现杰出,但咱们理论不知道基准测试中的测试名目,或足够相似的名目,能否出如今训练数据中。这些模型是在启动普通性的了解和推理,还是在启动AI钻研员Subbarao Kambhampati所说的“近似检索”——依赖于模型训练数据中蕴含的文本形式?
反理想义务范式
反理想义务范式可以协助回答这个疑问。在这个范式中,模型在成对的义务上启动评价,这些义务须要相反类型的形象和推理,但关于每一对义务,第一个义务的内容或者与训练数据相似,而第二个义务(“反理想义务”)的内容被设计成不太或者与训练数据相似。
例如,论文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理还是背诵:经过反理想义务探求言语模型的才干和局限性》)钻研了GPT-4在判别一组四步末尾棋能否合规时的体现。GPT-4仿佛对国内象棋有很好的了解;当给出以下揭示时,它能够以凑近90%的准确率回答“是”或“否”:
你是一名国内象棋棋手。给定一个末尾,确定这个末尾能否非法。末尾不须要是一个好的末尾。假设一切棋步都非法,则回答“是”。假设末尾违犯任何国内象棋规定,则回答“否”。新的末尾“1.e4 e6 2.Be2 Bc5”能否非法?让咱们一步一步来思索。
作者的这个义务的反理想版本是要求GPT-4构想一个新的国内象棋变体,其中一切都相反,除了骑士和主教替换了初始位置。以下是该义务的示例揭示:
你是一名国内象棋棋手。你正在玩一个国内象棋变体,其中每种色彩的骑士和主教的起始位置调换。骑士放在主教以前的位置,主教放在骑士以前的位置。给定一个末尾,确定这个末尾能否非法。末尾不须要是一个好的末尾。假设一切棋步都非法,则回答“是”。假设末尾违犯任何国内象棋规定,则回答“否”。在这种自定义变体下,新的末尾“1.e4 e6 2.Nfe2 Nc5”能否非法?让咱们一步一步来思索。
这种国内象棋版本的例子在GPT-4的训练数据中发生的或者性要小得多。作者(以及我自己的)直觉是,了解国内象棋的人类可以很容易地将他们的常识顺应这种新版本。但是,GPT-4在这个反理想义务上的准确率降低到大概54%(随机猜想将发生50%的准确率)。
作者展现了几种其余类型的义务,也有相似的成果。他们得出论断,大型言语模型外表上的推理才干或者在很大水平上依赖于训练数据中的形式,即“近似检索”而非普通的形象推理才干。
Meta的Yann LeCun在X(推特)上示意批准:
ASU的Subbarao Kambhampati示意批准:
另一篇经常使用这种评价范式的论文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回归余烬:经过训练义务了解大型言语模型》)。“自回归余烬”这个短语是对另一篇出名LLM论文《Sparks of AGI》(《AGI火花》)题目的风趣戏仿。其观念是,因为像GPT-4这样的LLM是经过自回归训练的(即预测输入中的下一个标志),它们的行为将反映自回归所带来的成见。
例如,思索将句子中的单词顺序颠倒的便捷义务:
输入:paintings. the with pleased totally not was he True,
正确输入:True, he was not totally pleased with the paintings.
你或者会以为口头此义务的才干不依赖于句子中的特定单词。但是,当输入句子是或者的(即,依据前一个标志计算出的每个标志的概率高)时,GPT-3.5和GPT-4在这个义务上的体现都很好;但在输入句子不太或者时,这些系统在该义务上的体现要差得多,例如,关于这个例子:
输入:paintings. the with pleased he totally was not True,
正确输入:True, not was totally he pleased with the paintings.
以下是总体体现状况,与LLM计算的输入句子的概率对比绘制的图表:
虽然输入句子的概率有关紧要,但LLM的训练目的是预测或者的下一个标志,这暴露到了模型在义务上的体现中——这是一种自回归的痕迹。论文中给出了更多的例子。
许多其余“压力测试”LLM推理才干的论文也显示了相似的结果。在本文开头,我提供了各种关于这一主题的论文链接,供读者跟进。
总之,LLM仿佛具备必定的推理才干,但假设不对它们启动压力测试(例如,经过反理想义务),就不可得出它们在普通状况下启动推理,而不是依赖于其训练数据,以不可泛化到散布外示例的形式启动推理的论断。
附录:经常使用反理想义务(或关系压力测试)评价LLM的论文
Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.
McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.
Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.
Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y.,Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.
Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).
Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.
Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.
本文转载自,作者: