一、概述
•STaR: Bootstrapping Reasoning With Reasoning
•Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman
1 Motivation
• Step-by-step推理步骤生成可以优化言语模型在复杂推理义务(如数学或知识问答)上的功能,然而要让LLM能生成rationale推理环节,要么须要构建宏大的推理数据集,要么在只经常使用大指示例(但推理时就义了准确性)。
• 须要一种方法来应用大批的推理示例和少量未经过推理的数据来优化模型的推理才干。
1省流版总结:
2 专业版总结:
本文提出了一种名为“Self-Taught Reasoner”(STaR)的方法来处置言语模型在复杂推理义务上功能优化的疑问。**STaR方法的**现实是经过迭代地利用大批推理示例(rationales)和少量无推理数据集,逐渐疏导模型优化启动复杂推理的才干。**详细来说,STaR方法包括以下几个步骤:
3 Rationalization指的是什么?
Q1:为什么要用Rationalization?
• 间接让LLM生成推理思索环节,这些思索环节有些是对的,有些是错的, 间接拿正确的思索环节,来训练llm生成rational,因为没有增量消息,会造成模型不能从failed example中学习,这样就不能让模型具有对new problems启动推理的才干。
Q2: 如何生成Rational
• 如下图所示,间接让LLM生成推理环节, 关于failed的例子,加上label作为hint,基于hint,可以生成正确的推理环节。
3 Conclusion
• STaR清楚优化了在多个数据集上的功能,相关于间接预测最终答案的模型,其成果愈加突出。
• 在CommonsenseQA数据集上的体现与微调一个大30倍的最先进言语模型相当。
• STaR使得模型能够经过学习自身生成的推理步骤逐渐优化推理才干。
二、详细内容
1 试验设计
数据集:
:模型驳回的是6B的开源模型(GPT-J),其checkpoint和fine-tuning code都开源了。
2 Rationalization能极速优化accuracy(从失败中学习能极速生长!!!)
说明;rationalization指的就是关于failed的example,加上hint,生成正确的推理环节数据并用于训练。
论断:随着STaR算法迭代次数的参与,模型在算术义务上的准确率逐渐提高。特意是在经常使用rationalization的状况下,准确率优化愈加块。
3 STaR + rationalization比间接FT和few-shot成果好很多
• CQA数据集
• GSM8K数据集
说明:
• Direct Finetuned:不输入两边推理环节
• STaR without rationalization:不从失败样例中学习(以label作为hint生成推理环节用于ft)
• STaR with rationalization:从失败中学习
论断1:生成两边推理环节能清楚优化最终的精度 ,例如就算经常使用100%的数据,不加推理环节,精度只能到60%,加上后用更少的数据却能更高的精度(大于68%)。
论断2:rationalization从失败中学习能进一步优化精度。
三、总结
STaR方法的主要在于,它 准许模型经过自我生成的推理环节来自我改良,而不须要人工标注少量的推理数据集 。此外,**经过rationalization技术,STaR能够确保模型从其失误中学习,从而提高全体的推理才干。**论文的试验结果标明, STaR在多个数据集上的功能清楚优于间接预测答案的模型,并且与经常使用30倍更大模型的微调功能相当。