一、论断写在前面
在强化学习人类反应(RLHF)中,有效对齐大型言语模型(LLMs)与以人为中心的价值,同时防止经过预训练和监视微调(SFT)取得的才干退步,是一个**应战。插值RLIF和SFT模型参数可以调整人类偏好与基天性力之间的掂量,从而以就义对齐鼓励为代价缩小对齐开支(Alignment Tax)。
受此启示,论文提出在RLHF的每个优化步骤中整合RL战略和SFT模型,以继续调理训练方向,引入在线兼并优化器。详细而言,论文经过兼并SFT与预训练模型之间的参数差异来融合梯度,有效地疏导梯度向SFT优化的方向最大化鼓励。
对各种主干LLMs启动的少量试验标明,与正则化和离线兼并基线相比,在线兼并优化器能更好地缓解对齐老本并成功更优的对齐性能。此外,论文提出了step-K在线兼并优化器,弥合了在线和离线兼并之间的差距,并深化剖析了超参数和消融的成果。论文证实了论文的优化器实用于不同的LLM家族,如Qwen和LLaMA,超越从1.8B到8B的各种模型大小,以及DPO和KTO等不同的RLHF算法,以及现有的模型兼并方法。它清楚优化了对齐鼓励,同时减轻了对齐老本开支,在14个基准测试中成功了更高的全体性能。
限度:在线兼并优化器的关键限度与参数效率关系。在线兼并优化器参与了内存需求,由于它们须要缓存参考模型的额外增量参数,以对应训练中的增量降级权重。同时,除非参考模型也经常使用LoRA适配器启动训练,否则它们不能运行于LoRA训练。但是,经过将GaLore与在线兼并优化器联合经常使用,可以进一步消弭这一限度。
二、论文的便捷引见
2.1 论文的背景
现实状况下,一个最佳的RLHF战略应在坚持对齐性的鼓励同时防止关系的代价,力图在最大化鼓励的同时最小化忘记。依赖于神经网络的线性形式连通性,模型才干之间的掂量可繁复地形容为模型参数的插值。钻研标明,经过权重插值从同一预训练模型微调的不同模型联合,往往能在原始模型间成功更平衡的性能。
受此启示,论文初步探求了将RLHF模型与其训练自的参考SFT模型启动兼并。论文的观察标明,这种离线模型兼并有效地缓解了对齐老本。如表4所示,离线兼并模型在言语基准和言语熟练度上复原了与SFT模型相当的性能。但是,这种改良是以相关于RLHF模型偏好评分的缩小为代价的。
鉴于单次参数插值仅准许在固定才干的模型之间启动掂量,离线兼并带来的过度性能优化并不令人异常。在RLHF训练环节中,每个优化步骤都优化了模型的才干。因此,论文无时机确保这些变动的方向与参考SFT模型坚持分歧。本文中,论文将模型兼并整合到每个RLIIF优化步骤中,并引入了在线兼并优化器。这一翻新的优化器在优化鼓励方面比传统的优化器如AdamW更有效,同时也在缩小对齐老本方面,相似于离线兼并。
图1:RLHF与在线兼并优化器的示用意。在每个RLHF迭代中,论文首先失掉降级权重A((0,而后对其启动稠密化处置,并与参考模型的delta参数达成共识。论文经常使用这种兼并的delta作为本次迭代中战略模型的降级。论文还对比了在线兼并与离线兼并,如图下方所示
对齐开支(Alignment Tax)。理论,使大型言语模型(LLMs)与人类偏好对齐触及两个阶段:首先启动监视微调(SFT)以建设遵照指令的模型,随后经过人类反应强化学习(RLHF)来增强者类偏好。干流的RLHF方法,如PPO和DPO,指点模型在优化鼓励的同时,引入Kullback-Leibler(KL)散度处罚项,该处罚项存在于学习到的RL战略输入与参考的SFT模型之间。这一处罚机制防止战略在谋求偏好鼓励时偏离其原始指标,即坚持已取得的言语才干。
论文在DPO设置中尝试了不同的KL散度权重β,如图4所示。β的参与与基准性能的平均优化关系,但代价是MT-Bench和AlpacaEval上的性能降低。同样,降低β会造成模型失去其基天性力。在鼓励优化与维持言语分类学之间寻求平衡已成为RLHF训练中的首要应战。
2.2 论文的方法--在线兼并优化器
遭到离线兼并的启示,本节论文讨论将模型兼并融入到RLHF优化步骤中。论文首先扫视罕用的基于梯度的优化器。
2.2.1 从基于梯度的优化器到在线兼并优化器
离线义务运算技术经过将LLMs的增量参数聚合来兼并LLMs。相应地,论文旨在兼并参考SFT模型和第t次训练步骤的政策模型。
但是,论文实证发现间接优化等式是不稳固的且难以收敛,并且等式须要额外的缓存来存储预训练模型的参数。因此,论文平等式启动了松弛处置,这种松弛依然与论文在优化步骤中运行离线兼并的动机很好地分歧。这种松弛的另一个关键好处是防止了缓存额外的参数,增强了内存效率。经过这种松弛,论文标明在每个优化步骤中的在线兼并可以经过基于梯度的增量权重与参考模型的增量参数之间的整合来近似。
2.2.2 成功方法
须要留意的是,论文的优化器框架具备高度的灵敏性,并与现有的模型兼并方法兼容。论文基于宽泛经常使用的模型兼并方法DARE和TIES开发了两种在线兼并优化器:
OnDARE优化器。DARE驳回随机稠密化方法和线性组协作为共识方法。
OnTIES优化器。TIES经常使用top-k百分比稠密化和基于符号的共识方法。详细来说,它从每个兼并候选中保管关于相对值的top-p百分比的参数。它依据符号和范数计算元素级少数符号,摈弃与少数符号不同的参数,并对残余的参数启动加权求和。
2.3 论文的成果
2.3.1 试验设置
训练。论文关键探求了在ULTRAFEEDBACK数据集上间接偏好优化(DPO)中的在线兼并优化器,由于与近端战略优化(PPO)相比,DPO由于其较低的训练老本而在当今大规模LLM对齐中失掉宽泛运行。普通的DPO包括从战略模型中采样和标注照应。在这项上班中,论文经常使用DPO的离线战略设置,间接在ULTRAFEEDBACK数据集上训练论文的战略模型,这也被证实在提高有益性和有害性方面是有效的。
评价。评价对齐的大型言语模型是一项具备应战性的义务。论文遵照片面评价发生可信评价的间接准则。因此,论文的评价包括7个类别中的12个公共基准,评价对齐LLM的综合才干:
数学:(1)GSM8K(2)Math401(3)Math23K;
编码:(1)HumanEval(2)MBPP(3)DS1000(4)CodeApex;
指令遵照(IF):(1)IFEval;
阅读了解(RC):(1)COQA(2)DROP;
常识:(1)MMLU;
agent:(1)NousResearch;
代码混合;
论文经常使用类别内的平均分数作为最终类别分数,经常使用一切类别中一切基准的平均分数作为全体评价。论文还经常使用基于GPT-4的评价器,经过长度控制评分,引入了MT-Bench 4和AlpacaEval 2.0,这是两个上游且盛行的基准,用于评价LLM与人类偏好的分歧性。
基线。论文方法的一个便捷基线是普通的AdamW。论文进一步思考离线兼并方法,如线性兼并、DARE和TIES作为论文的强基线,由于Lin et al. (2024)标明便捷兼并可以减轻对齐老本。由于对齐老本与忘记无关,论文还将传统的正则化方法,如KL处罚、EMA和ChildTuning作为论文的基线。
详细来说,DPO算法经常使用超参数β调整KL处罚。论文还将LoRA作为论文的基线之一,由于参数高效方法在训练中运行了关于权重空间的正则化。
性能。论文经常使用三种LLM尺寸启动试验,即Qwen1.5-1.8B、Qwen1.5-7B和LLaMa3-8B系列。
详细而言,论文经常使用Qwen-1.8B-Base、Qwen-7B-Base和LLaMa-3-8B作为在线优化器的基础模型。论文在Qwen1.5-1.8B-SFT、Qwen1.5-7B-SFT和LLaMa-3-8B-it作为参考模型上对ULTRAFEEDBACK启动间接偏好优化。两个Qwen1.5监视微调模型在多言语指令数据上启动了训练,但与ULTRAFEEDBACK数据集没有堆叠。
2.3.2 关键结果
论文在表4中展现了论文的关键结果,其中展现了基线方法和论文提出的在线兼并优化器在ULTRAFEEDBACK上的性能,区分在Qwen1.5-1.8BChat、Qwen1.5-7B-Chat和LLaMa-3-8B-Chat上训练。总的来说,与原始的AdamW相比,正则化和离线模型兼并方法在大少数设置下并没有清楚提高RLHF模型在基准测试上的平均性能,反而造成MT-Bench和AlpacaEval 2.0的偏好分数降低。这标明,仅仅依托梯度dropout(ChildTuning)、克服模型梯度降级的变动(EMA)或基于SFT模型对RLHF模型参数启动一次性性调整(Merging)等技术,都不能有效处置对齐鼓励-税收的掂量疑问。
正则化基线在LLama-3-8B-It上体现特意好,一切正则化方法在平均基准测试分数以及MT-Bench和AlpacaEval分数上都取得了分歧的改良。相比之下,论文提出的在线兼并优化器,特意是OnDARE变体,在一切测试集上都取得了最清楚的改良。OnDARE在基准测试平均分上取得了最高的改良,并在一切三个主干LLM上继续增强了MT-Bench和AlpacaEval 2.0,清楚超越其余基线,尤其是在LLaMa-3-8B-Instruct试验中,区分在基准测试、MT-Bench和AlpacaEval上取得了1.3、0.19和1.57的改良。
虽然OnTIES和OnDARE在提高鼓励和减轻税收方面都显示出了有效性,但在大少数状况下,OnDARE在平均基准测试分数方面略优于OnTIES,而OnTIES在AlpacaEval 2.0上有时具备更高的LC胜率。每个基准测试的详细分数在表5、表6、表7中报告。
2.3.3 超参数效应
本节剖析了两个关键超参数,即参数保管率和兼并权重,如何影响在线兼并优化器的全体性能。
参数保管率是在线兼并时期的参数保管率。论文在Qwen1.5-1.8B-Chat上探求了从1到1e-5的保管率,以在有限的计算资源内最大化搜查空间。如图2所示,即使在低至5e-4的低参数保管率下,在线兼并优化器依然坚持持重。这标明,在每个RLHF步骤中摈弃99.95%的基于梯度的参数修正依然可以失掉稳固的训练。与OnDARE相比,OnTIES对极低的参数保管率更敏感。这种敏理性是由于OnDARE驳回了无偏随机稠密化方法,而OnTIES经常使用的top-k稠密化在训练环节中引入了清楚的偏向。
兼并权重是参考(SFT)模型的梯度和增量参数的聚合权重。较大的兼并权重在在线兼并优化器中引入更强的正则化。论文尝试了从10−4到10−7的各种兼并权重,并在表2中报告了却果。
随着兼并权重的参与,由于训练环节中参与的正则化缩小,MT-Bench分数回升,而平均基准测试分数先参与后缩小,在α=5e−7时到达峰值。与EMA训练中的指数系数相似,较大的兼并权重会造成训练不稳固。因此,论文倡导从10−7这样的小数字开局兼并权重的超参数搜查。值得留意的是,不凡状况兼并权重=0使OnDARE同等于梯度dropout正则化方法,如论文基线中的ChildTuning。
2.3.4 RLHF算法的影响
论文进一步钻研了它们在其余RLHF算法中的运行。详细而言,论文在IPO和KTO中成功了OnDARE和OnTIES。论文在这些设置下在ULTRAFEEDBACK数据集上训练Qwen1.5-7B-Chat,并在表3中展现了却果。
除了IPO算法的平均基准测试分数外,在线兼并优化器OnDARE和OnTIES在MT-Bench上的体现都优于AdamW。这标明它们的有效性可以裁减到多个RLHF算法变体。
论文题目:Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment
论文链接:
本文转载自,作者: