清楚优化模型复杂推理用大批推理数据让模型学会通用推理才干 StaR

当蠢才享Google Research的一篇文章，或者OpenAI o1也驳回了相似的技术，题目是STaR: Bootstrapping Reasoning With Reasoning。这篇文章提出了一种应用言语模型自我生成推理的技术，称为“Self-Taught Reasoner (STaR)”。该技术经过迭代地利用大批的推理样本和少量没有推理的数据，逐渐优化言语模型处置复杂推理义务的才干。STaR能够清楚提高模型在多个数据集上的功能，功能能与大30倍模型的微调功能相当。本文提出的方法一方面证实生成两边推理环节能极大优化复杂疑问推理成果，同时也说明本文迭代学习自身推理环节来生成正当Rationales并优化复杂义务推理才干的有效性，能用大批的带推理的数据让模型具有通用的生成两边环节推理的才干。

一、概述

•STaR: Bootstrapping Reasoning With Reasoning

•Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

1 Motivation

• Step-by-step推理步骤生成可以优化言语模型在复杂推理义务（如数学或知识问答）上的功能，然而要让LLM能生成rationale推理环节，要么须要构建宏大的推理数据集，要么在只经常使用大指示例（但推理时就义了准确性）。

• 须要一种方法来应用大批的推理示例和少量未经过推理的数据来优化模型的推理才干。

1省流版总结：

2 专业版总结：

本文提出了一种名为“Self-Taught Reasoner”（STaR）的方法来处置言语模型在复杂推理义务上功能优化的疑问。**STaR方法的**现实是经过迭代地利用大批推理示例（rationales）和少量无推理数据集，逐渐疏导模型优化启动复杂推理的才干。**详细来说，STaR方法包括以下几个步骤：

3 Rationalization指的是什么？

Q1:为什么要用Rationalization？

• 间接让LLM生成推理思索环节，这些思索环节有些是对的，有些是错的，间接拿正确的思索环节，来训练llm生成rational，因为没有增量消息，会造成模型不能从failed example中学习，这样就不能让模型具有对new problems启动推理的才干。

Q2: 如何生成Rational

• 如下图所示，间接让LLM生成推理环节， 关于failed的例子，加上label作为hint，基于hint，可以生成正确的推理环节。

3 Conclusion

• STaR清楚优化了在多个数据集上的功能，相关于间接预测最终答案的模型，其成果愈加突出。

• 在CommonsenseQA数据集上的体现与微调一个大30倍的最先进言语模型相当。

• STaR使得模型能够经过学习自身生成的推理步骤逐渐优化推理才干。

二、详细内容

1 试验设计

数据集：

：模型驳回的是6B的开源模型（GPT-J），其checkpoint和fine-tuning code都开源了。

2 Rationalization能极速优化accuracy(从失败中学习能极速生长!!!)

说明；rationalization指的就是关于failed的example，加上hint，生成正确的推理环节数据并用于训练。

论断：随着STaR算法迭代次数的参与，模型在算术义务上的准确率逐渐提高。特意是在经常使用rationalization的状况下，准确率优化愈加块。

3 STaR + rationalization比间接FT和few-shot成果好很多

• CQA数据集

• GSM8K数据集

说明：

• Direct Finetuned：不输入两边推理环节

• STaR without rationalization：不从失败样例中学习（以label作为hint生成推理环节用于ft）

• STaR with rationalization：从失败中学习

论断1：生成两边推理环节能清楚优化最终的精度 ，例如就算经常使用100%的数据，不加推理环节，精度只能到60%，加上后用更少的数据却能更高的精度（大于68%）。

论断2：rationalization从失败中学习能进一步优化精度。

三、总结

STaR方法的主要在于，它 准许模型经过自我生成的推理环节来自我改良，而不须要人工标注少量的推理数据集 。此外，**经过rationalization技术，STaR能够确保模型从其失误中学习，从而提高全体的推理才干。**论文的试验结果标明， STaR在多个数据集上的功能清楚优于间接预测答案的模型，并且与经常使用30倍更大模型的微调功能相当。

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#云雀 #通义千问 #LaMDA #文心一言 #AI #大模型 #紫东太初 #日日新 #Copilot #Agent #悟道 #言犀 #清言 #STaR #人工自动 #孟子 #模型 #4 #OpenAI #Bard #AIGC #多模态 #混元 #数据 #盘古 #AIGC运行 #开源大模型 #ChatGPT #Sora #GPT

清楚优化模型复杂推理 用大批推理数据让模型学会通用推理才干 StaR