一、概述
Llama 2: Open Foundation and Fine-Tuned Chat Models
论文地址: Llama 2: Open Foundation and Fine-Tuned Chat Models
代码:
官方:
1Motivation
2.1 全体架构
总结1: 参考InstructGPT[1],关键还是分为三个步骤(预训练、SFT、RLHF),其中RLHF用了两个Reward Model(Safety Reward Model、Helpful Reward Model), 翻新性地引入两个Reward模型,在保障安保性的同时,坚持很好的有用性。
总结2: 在RLHF阶段,始终 迭代优化鼓励模型 与 增强模型才干 关于确保鼓励模型坚持在散布范围内至关关键,本文前面的试验中,看到从最开局与chatgpt对比只要10%的胜率,用了本文提到的SFT和迭代RLHF后,胜率可高达60%。
总结3: Rejection Sampling(拒绝采样):强化学习方法的一种,每次采样多个结果,选取最佳的k个结果构建新的训练数据,降级梯度,同时迭代优化模型成果。
2.2 颁布LLAMA2和LLAMA2-CHAT
总结1: 本次同时颁布了基座模型LLAMA2和Chat模型LLAMA2-CHAT,参数在7B、13B、70B都有。
总结2: 在新的地下的混合数据来训练,语料库的大小参与了40%,将型的高低文长度参与了一倍,驳回了分组查问留意力机制。
2.3LLAMA2和LLMA1训练状况对比
说明: Llama 2系列模型。一切模型都经常使用4M token启动训练。其中更大的模型34B和70B模型经常使用分组查问留意力(GQA)来提高推理可裁减性,7B和13B还是通用的留意力机制。
总结1: 相关于llama1,llama2的窗口长度翻倍,训练tokens翻倍。
总结2: 经常使用分组查问留意(GQA)来 提高推理可裁减性 。
Grouped Query Attention: 在惯例的留意力机制中,咱们 理论将一个查问与一组键(key)和值(value)启动婚配 ,以便在口头各种义务(如翻译、问答等)时聚焦于相关消息。而在 "grouped query attention" 中, 将多个查问作为一个组一同启动处置,从而引入了查问组之间的交互 。这种留意力机制的一个运行场景是在多轮对话了解中,例如问答系统或对话生成模型。在多轮对话中,每一轮对话可以被视为一个查问组,其中每个查问示意一个轮次的输入。经过引入 "grouped query attention",模型可以更好地捕捉到不同轮次之间的消息流动和高低文关联,从而更准确地理解和生成照应。总之,"grouped query attention" 是一种留意力机制的变种,用于处置多组查问之间的交互, 特意实用于多轮对话了解等场景,有助于提高模型的高低文了解和消息交互才干。
3 Conclusion
3.1 全体状况:远超开源大模型,除代码才干外追上了ChatGPT
大模型评价维度: 普通从代码,知识推理,环球知识,阅读了解,数学,比拟热的几个数据集包括MMLU,BBH,AGI Eval等方面来评价。
3.2 LLAMA2的Helpfulness体现
总结1: LLama-2 70b模型与chatgpt-0301的 GSB评分为35.9:31.5:32.5 ,Llama2-70b有用性比ChatGPT-0301还要好点。
总结2: GPT4智能评价,绿色区域标明,LLama-2的模型更好,为了消弭平局,经常使用了赢/(赢+输)来计算分数。
3.3 LLAMA2的Safety体现
总结: Llama-2 70b-chat违犯安保的比例低于5%,比ChatGPT0301高于5%还要好,虽然评测有必定局限性。
二、预训练和Fine-tuning
1 预训练训练loss变动状况
总结1: 对比Llama1,PPL最终是到1.6左右,这里Llama2-70B到1.5了。
总结2: 观察到启动2T tokens预训练后, 模型依然没有任何饱和迹象 ,还能继续加数据继续训!!!
总结3: tokenizer方法和LLAMA1一样,包括:BPE编码,SentencePiece切词,32K。
2 有监视SFT关键是高品质的数据
总结: SFT数据的品质比数量更关键,本文发现开源的一些数据量比拟大,然而多样性和品质都不太好,本文最终搜集了 27540条高品质的数据来训练,成果有显著的改善 。
3 人类偏好数据搜集(百万级别)
总结1: 搜集了现有的开源的和meta搜集的数据集,总共290万,其中Meta整顿了141万。
总结2: 人类偏好的标签包括2种反应,chosen或许rejected,觉得不是特意细。
总结3: 还剖析了各种偏好数据的比拟的次数、每个对话的平均轮次、每个例子、每个揭示和每个回答的平均token数等目的。
4 各种大模型在Meta偏好数据上的体现
总结1: GPT4在人类偏好数据集上成果都比拟高。 GPT4没有在Meta数据集上训练过,然而成果也是比拟好的,然而比经过Meta数据训练的RM的成果还是要差一些。
总结2: 经过人类偏好数据集训练的Reward model能大幅优化在该畛域的偏好成果。 在Meta Safety以及Meta Helpful数据集上,经过对应场景数据训练的RM,Safety RM和Helpfulness RM在各自的畛域都是最好的,比GPT4都要好。
5 Reward model成果和模型尺寸的相关
总结: 数据越多,模型越大成果越好,70b的Reward模型更好的概率在80%+,13b的Reward模型更高的概率在75%-76%左右。
6 RL迭代训练(PPO和Rejection sampling fine-tuning)是关键的制胜法宝
总结1: 在强化学习阶段,始终迭代优化模型成果,关键探求了两种不同的RL算法来迭代优化,PPO和Rejection Sampling fine-tuning算法。
总结2: Rejection Sampling fine-tuning 是一种从模型生成多个候选输入,经过鼓励机制选用最佳输入,并将选定的输入用于梯度降级和微调的方法。这个方法在之前的钻研基础上启动了拓展,使得模型可以经过选用的输入来进一步优化自身。
总结3: 拒绝采样和ppo的不同。宽度:在拒绝采样中,该模型为给定的揭示探求K个样本,而PPO只探求1个样本。深度:在PPO中,在步骤t的训练时期,样本是上一步梯度降级后t-1的降级模型战略的函数。在拒绝采样微调中,咱们在运行相似于SFT的微调之前,依据模型的初始战略对搜集新数据集的一切输入启动采样。因为运行了迭代模型降级,两个RL算法之间的基本差异不那么显著。
论断: 拒绝采样可以从多个样本中,选用更好的样原本训练迭代模型,采样的个数越多,成果越好。同时温度系数越高,多样性越高成果越越好。
总结1: 只在70B的LLAMA2-CHAT上经常使用了拒绝采样,其余小模型都是从大模型蒸馏过去。
总结2: 总共RL迭代了5轮,在RLHF(V4)之前,只经常使用拒绝采样微调,之后,咱们按顺序将两者联合起来,在再次采样之前在结果的拒绝采样checkpoint上运行PPO。
7 应用GAtt方法来优化多轮问答中对系统指令的遵照才干
说明 :在多轮问答中,经常会遗记系统指令,如左图所示遗记用emojis来回答的指令,前面用GAtt技术优化后,左边有显著改善。
GAtt方法 :觉得是一种新的attention方法,关于第一条指令或许系统指令提供的留意力更强。
8 LLAMA2-CHAT的演化环节(RLHF迭代5轮的变动状况),成果十分强!
总结1: RLHF总共迭代了5次,每次迭代都有优化,其中前4次用的是拒绝采样来训练,v5用上了ppo优化更大。
总结2: RLHF带来的优化是比拟显著的,从对chatgpt10%的胜率优化到了60%+。
9 人工评价有用性
总结: 在helpfulness prompts上,比其余开源模型成果要更好,甚至比闭源的chatgpt都要好一点。
三、Safety
1 在训练数据中引入更安保的数据
总结1: 安保的数据越多,成果越好,helpfulness坚持稳固
总结2: 随着更多安保训练数据的参与,较低的安保RM分数(即最不安保的回答)逐渐隐没,代表安保分十分低的结果越来越少。
2应用Context distillation方法优化安保性
Context distillation方法: 指在高低文中引入额外限度优化安保性的方法,这里提供了两种方法如下:
方法1: Generic Preprompt:优化回答中不应该包括任何有害的、不品德、或许有成见的内容。
方法2: Preprompt with Answer Template:给出答案的模版,指点或许不安保的行为该如何回答。
论断1: 采取通用的预揭示方法(Generic Preprompt)会提高安保RM分数,但带有定制答案模板的预揭示(Preprompt with answer Template)会更有协助。
论断2: 随着原始安保分的参与,Context Distillation带来的优化越来越小,甚至对高分数的样本带来负面影响,所以本文只在能优化安保分的样本上经常使用context distillation技术。
3 Red Teaming
目的1: 主动危险识别或许不太够,这里还提出要主动危险识别来优化,本文把他叫做Red Teaming,关键用于剖析哪些状况下或许会形成毒性的结果。
目的2: 安保是一个长尾疑问,即使十分不频繁的case也会造成重大的结果。
发现的llm攻打特点:
• [早期模型]更有或许生成不安保的照应,而没有留意到它们蕴含有疑问的内容。[稍晚的模型]能够发现有疑问的内容,然而还是不可防止不输入。[最新模型]能够处置这些疑问。
• 创意写作恳求(歌曲、故事、诗歌等)或许会让他生成之前会剧烈推戴的内容(回避监管机制,生成不安保的内容)。
• 在踊跃的高低文中嵌入有疑问的恳求,例如经常使用踊跃、进取、富裕能量的疑问启动覆盖,是最有效的攻打方法。
4 Safety Evaluation of Llama 2-Chat
总结: 不同尺寸的LLAMA2系列模型中,都有更好的安保性,同时有用性也十分不错。
总结: 多轮问答的有害性比单轮问答的有害性对别,参与比拟多,然而LLAMA2系列模型都比其余模型好,34b的模型有点奇异,本文也没有开源。
总结: 比拟了多个角度,包括有害的,合法的,低品质三大类状况下个模型的违反比例,LLAMA2系列体现都不错,34b的模型体现有点奇异没有开源。
四、Discussion
1 SFT模型到RLHF方法给Reward model score散布带来的变动
总结: 最还是的mix数据训练的SFT,低分数的比拟多,随着应用标注数据,成果有了显著的优化,同时应用RLHF,取得高分数的样本越来越多,说明成果越来越好。
2 RLHF降低模型结果的了多样性
总结1: 温度越高,多样性越好,然而做了RLHF后,多样性有了显著的降低。
总结2: Creative Prompts还能维持较高的多样性,同时上文也提到,或许更容易被攻打,所以觉得多样性和有毒性确实是一个须要掂量的环节。
五、思索与总结
总结: 本文关键从预训练、Fine-tuning、Safety这几个角度来引见了LLAMA2,其中 引入高品质的数据,屡次迭代优化Reward Model是十分关键的一步 。
总结1: 训练数据品质十分关键。 相关于多而品质不高的数据,SFT环节中,搜集27540条高品质的数据就能有十分大的优化。
总结2: RLHF对对齐人类观点还是十分关键的。 LLAMA2经常使用RLHF迭代训练后,对chatgpt的胜率从开局的10%的胜率优化到了60%+。
总结3:模型越大,数据量越多,Reward Model的成果就越好。
总结4:优化安保性可以在训练数据,SFT,RLHF多个方面启动优化。 引入更安保的数据,可以降低毒性十分高的结果。引入RLHF,可以进一步提高输入结果的Reward Model分数。
总结5:引入Context distillation方法也可以有效的优化安保性。 通用的不能输入毒性结果的指令能够带来必定优化,同时对毒性结果启动后处置,能够更进一步优化安保性。
总结6:多轮问答比单论问答有更高的发生毒性回答的概率。 本文应用GAtt方法来优化多轮问答的安保性。
总结7:安保性和多样性是须要掂量的。 在看到RLHF对齐人类观点的同时,也要看到其多样性就义比拟大。同时假设多样性比拟高,也使其更有或许发生不安保的内容。
本文转载自,作者: