Step Verify OpenAI Let Step详细解读 s by

koi

2024-11-14 23:47:44发布
关注私信

602 653 510

一、概述

title：Let’s Verify Step by Step

论文地址：

代码：

1.1 Motivation

1.2 Methods

说明：左边是正确的slutions，左边有局部推理是失误的，PRM（环节监视）正确地指出了失误答案中的失误

1.3 Conclusion

二、详细内容

1 大规模监视学习

目的：比拟PRM（环节监视） vs ORM（结果监视）最佳体现与N（每个疑问N个solution的数量选一个最终的结果）的相关

2 小规模分解监视学习【偏心对比ORM和PRM】

背景：由于数据集构建，监视方法的不同，以及结果评判方法的不同，间接对比ORM和PRM有点不太好比拟

要素：（1）ORM和PRM的训练集不可间接启动比拟：PRM训练集是经过被动学习构建的，倾向于失误答案的处置打算，并且规模小了一个数量级。（2）ORM最终答案的评分正确但或许推理环节失误带来评判不偏心。（3）搜集人工反应的老本很高，不可随便地经过人工标注者去除这些要素

处置方法：经常使用大规模的PRM（PRMlarge）来监视较小的模型来启动相关的消融试验。这个设置可以以较低的老本模拟少量的数据搜集。

PRM（PRMlarge supervised）：应用PRMlarge（即大规模PRM，以下简称PRMlarge）来做环节监视

ORM（PRMlarge supervised）：应用PRMlarge（即大规模PRM，以下简称PRMlarge）来做结果监视

ORM（final-answer supervised）：不看环节，只看最终结果，相当于只拿最终结果来启动监视

图(a)依据500个最佳选用来评价每个鼓励模型。咱们看到，在一切数据搜集规模上，PRM环节监视的体现都大大优于两种方式的结果监视（ORM（PRMlarge supervised）和 ORM（final-answer supervised））。

图(b)经过其在N个不同值中的最佳体现来评价每个系列的最佳鼓励模型。咱们看到，经常使用PRMlarge启动结果监视显著比最终答案审核更有效。这可以解释为，PRMlarge为经常使用不正确的推理得出正确最终答案【结果正确，推理失误】的处置打算提供了更好的监视。

3 被动学习

经常使用一种小规模的鼓励模型PRMselector，每个疑问评分1000个样本。

从每个疑问选用N个样本，其中80%是最令人信服的失误答案样本，20%是剩下的最令人信服的样本（正确或失误答案）

经常使用PRMlarge对所选样本启动评分并基于这些评分并启动训练

性能如图4a所示。经过比拟具有和不具有被动学习的最佳拟合线的斜率，这种数据标志打算的性能比平均数据标志大概高效2.6倍。

当经常使用最大被动学习数据集（每个疑问200个样本）训练模型时，结果略低于预期的趋向线，或许是由于200个样本代表了全体选用池（1000个样本）的相当大比例，造成相对不足多样性限度了被动学习的潜在长处。

4 泛化才干

三、参考文献

本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#云雀 #孟子 #PRM #混元 #GPT #悟道 #人工自动 #言犀 #OpenAI #AIGC #Copilot #Sora #Bard #4 #通义千问 #日日新 #多模态 #AI #文心一言 #Agent #清言 #LaMDA #开源大模型 #大模型 #Motivation #ChatGPT #AIGC运行 #紫东太初 #盘古