一、概述
title:Let’s Verify Step by Step
论文地址:
代码:
1.1 Motivation
1.2 Methods
说明:左边是正确的slutions,左边有局部推理是失误的,PRM(环节监视)正确地指出了失误答案中的失误
1.3 Conclusion
二、详细内容
1 大规模监视学习
目的:比拟PRM(环节监视) vs ORM(结果监视)最佳体现与N(每个疑问N个solution的数量选一个最终的结果)的相关
2 小规模分解监视学习【偏心对比ORM和PRM】
背景:由于数据集构建,监视方法的不同,以及结果评判方法的不同,间接对比ORM和PRM有点不太好比拟
要素:(1)ORM和PRM的训练集不可间接启动比拟:PRM训练集是经过被动学习构建的,倾向于失误答案的处置打算,并且规模小了一个数量级。(2)ORM最终答案的评分正确但或许推理环节失误带来评判不偏心。(3)搜集人工反应的老本很高,不可随便地经过人工标注者去除这些要素
处置方法:经常使用大规模的PRM(PRMlarge)来监视较小的模型来启动相关的消融试验。这个设置可以以较低的老本模拟少量的数据搜集。
PRM(PRMlarge supervised):应用PRMlarge(即大规模PRM,以下简称PRMlarge)来做环节监视
ORM(PRMlarge supervised):应用PRMlarge(即大规模PRM,以下简称PRMlarge)来做结果监视
ORM(final-answer supervised):不看环节,只看最终结果,相当于只拿最终结果来启动监视
图(a)依据500个最佳选用来评价每个鼓励模型。咱们看到,在一切数据搜集规模上,PRM环节监视的体现都大大优于两种方式的结果监视(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。
图(b)经过其在N个不同值中的最佳体现来评价每个系列的最佳鼓励模型。咱们看到,经常使用PRMlarge启动结果监视显著比最终答案审核更有效。这可以解释为,PRMlarge为经常使用不正确的推理得出正确最终答案【结果正确,推理失误】的处置打算提供了更好的监视。
3 被动学习
经常使用一种小规模的鼓励模型PRMselector,每个疑问评分1000个样本。
从每个疑问选用N个样本,其中80%是最令人信服的失误答案样本,20%是剩下的最令人信服的样本(正确或失误答案)
经常使用PRMlarge对所选样本启动评分并基于这些评分并启动训练
性能如图4a所示。经过比拟具有和不具有被动学习的最佳拟合线的斜率,这种数据标志打算的性能比平均数据标志大概高效2.6倍。
当经常使用最大被动学习数据集(每个疑问200个样本)训练模型时,结果略低于预期的趋向线,或许是由于200个样本代表了全体选用池(1000个样本)的相当大比例,造成相对不足多样性限度了被动学习的潜在长处。
4 泛化才干
三、参考文献
本文转载自,作者: