本文引见了一种名为“”的方法,经过将现有的大型言语模型(LLMs)转化为混合专家网络(MoE),从而处置了训练MoE时遇到的数据饥饿和不稳固性疑问。该方法基于驰名的LLaMA-2 7B模型,并将其 参数分为多个专家,而后对转换后的MoE模型启动继续预训练以进一步提高功能 。试验结果标明,在经常使用200B个标志启动训练后,LLaMA-MoE-3.5B模型在激活参数相似的状况下清楚优于密集模型。
下载地址和名目代码见文末
图1:构建LLaMA-MoE模型的关键框架。(a)LLaMA中的原始ffn被分为不同的专家。(b)在转换后的LLaMA-MoE中,暗藏形态是由局部选用的专家而不是一切的专家启动处置的。
专家构建
1. 概述
专家构建是将原始Feed-Forward Networks (FFNs)的参数划分为多个专家。传统的FFN层蕴含少量参数,这些参数可以被分解为多个子集,每个子集称为一个专家。经过这种方法,可以缩小每次计算所需的激活参数数量,从而在保障模型功能的同时清楚降低计算老本。
2. 参数划分方法
在构建专家时,罕用的两种方法是独立神经元划分和共享神经元划分。
3. 通常案例
在LLaMA-MoE模型的构建环节中,钻研人员尝试了多种参数划分方法,最终发现随机划分方法(IndependentRandom)在坚持模型功能方面效果最佳。这种方法便捷而高效,有助于平衡不同专家之间的负载,防止某些专家适度频繁经常使用而其他专家很少被激活的疑问。
继续预训练
1. 必要性
因为转换后的MoE模型在结构上与原始的密集模型(dense model)有所不同,间接经常使用转换后的模型或者会造成功能降低。为了复原和优化模型的言语建模才干,必定对转换后的MoE模型启动继续预训练。
2. 预训练战略
在继续预训练阶段,钻研人员经常使用了两种关键的数据采样战略:静态数据采样和灵活数据采样。
3. 数据过滤
为了提高训练数据的品质,钻研人员在预训练前对数据启动了过滤,去除了约50%的广告内容和约15%的非流利文本。这一战略有助于放慢模型的收敛速度,提高训练效果。
增强推理才干
1. 激活局部模型参数
在处置详细义务时,MoE模型经过激活局部模型参数来提高推理才干。每个输入token仅激活与其最关系的几个专家,从而缩小了不用要的计算。这种稠密激活模式不只提高了计算效率,还能在坚持高功能的同时降低推理老本。
2. 功能优化
试验证实,经过200B tokens的预训练后,LLaMA-MoE-3.5B模型在多个下游义务上清楚优于具备相反激活参数的密集模型。这一结果标明,经过适当的专家划分和继续预训练,MoE模型能够在坚持言语才干的同时清楚优化推感功能。
提高可解释性
1. 局部参数激活
因为每次仅有局部参数被激活,MoE模型在决策环节中的激生门路愈加明晰。这使得钻研人员能够更容易地追踪和解释模型的行为,了解模型是如何处置和照应不同输入的。
2. 实例剖析
在试验中,钻研人员观察到深层网络层比浅层网络层有更强的路由偏好,这象征着深层网络层捕捉更多义务特定的特色,而浅层网络层则更关注通用特色。这一发现有助于进一步优化专家划分战略,提高模型的全体功能。
降低计算老本
MoE(Mixture-of-Experts)模型相比传统的密集模型,经过只激活局部参数来处置输入,可以清楚降低计算老本。传统的密集模型在处置每一个输入时都须要经常使用一切参数,这样随着模型容量的参与,计算老本也会急剧回升。而MoE模型则经过引入专家网络和门控网络,只激活一局部专家,从而降低了计算老本。
例如,LLaMA-MoE模型在构建环节中,将原始LLaMA模型的FFN(Feed-Forward Network)宰割成多个专家网络。这种宰割方法在维持模型功能的前提下,清楚缩小了须要激活的参数量,进而缩小了计算开支。经过训练200B tokens,LLaMA-MoE-3.5B模型在激活参数量相当的状况下,清楚优于相似的密集模型。
工程运行
MoE模型在须要高效推理的实践运行中展现出渺小的后劲。例如,在实时翻译和自动助手等场景中,计算老本的降低和推理效率的提高尤为关键。MoE模型可以依据输入灵活选用适合的专家,从而成功极速而准确的推理。
以实时翻译为例,传统模型或者须要少量计算资源来处置复杂的言语转换,而MoE模型则能够经过激活大批专家,极速处置翻译义务,降低提前并提高照应速度。雷同地,在自动助手中,MoE模型可以依据用户的不同需求,灵活调配计算资源,从而提供愈加共性化和高效的服务。
通常钻研
在模型架构设计和优化方面,MoE模型提供了新的思绪和方法。传统模型在裁减环节中面临着计算老本急剧回升的应战,而MoE模型经过稠密激活局部参数,为处置这一疑问提供了有效的途径。
钻研标明,经过将密集模型的FFN参数随机宰割成多个专家,并在每一层引入MoE模块,可以在坚持模型功能的同时,缩小计算开支。例如,独立随机拆分方法在试验中取得了最佳功能。与其他方法相比,该方法在专家和门控网络同时训练时,可以缩小偏向,极速复原模型的言语才干。
非堆叠随机拆分法
非堆叠随机拆分法经过随机拆分原始FFN的参数来构建专家,这种方法在通常中取得了清楚效果。详细而言,给定一个蕴含一切两边神经元索引的汇合U,经过将U随机宰割成等大小的子集,从而构建出多个专家网络。这种方法能够在坚持模型原有示意才干的基础上,缩小计算复杂度。
在LLaMA-MoE模型的构建中,驳回了非堆叠随机拆分法,将FFN层中的两边神经元平均宰割成多个子集,每个子集对应一个专家网络。试验结果标明,该方法不只在缩小计算老本方面体现杰出,还能够在继续预训练阶段极速复原模型的言语才干。钻研还发现,对专家输入启动从新缩放操作,可以清楚优化MoE模型的功能。
经过这些钻研和通常,MoE模型不只无通常上提供了新的钻研方向,还在实践运行中展现出了清楚好处,为未来的大规模言语模型开展提供了关键参考。
共享神经元方法
共享神经元方法经过结构化裁剪来保管模型的局部示意才干,这种方法关键分为外部共享和外部共享两种战略。
1. 外部共享
外部共享战略关键是经过对神经元的关键性启动排序,并依据排序结果选用局部神经元启动共享。详细来说,首先对每个神经元启动关键性评价,可以经常使用一阶泰勒开展来度量每个神经元对损失变动的影响。而后,依据这些关键性分数,将最关键的神经元在不同的专家间共享,而其他神经元则调配给特定的专家。这种方法可以在不清楚降低模型示意才干的状况下,成功有效的参数裁剪和共享。
2. 外部共享
外部共享战略则是在不同专家间间接共享局部神经元,而不启动关键性排序。这种方法经过预先定义的规定,将一些神经元设定为共享神经元,并将其他神经元调配给特定专家。这种方法的好处在于成功便捷且计算开支较小,但或者在某些状况下不可到达外部共享战略所带来的功能优化。
数据采样权重
在训练环节中,数据采样权重的选用对模型的收敛速度和最终功能有关键影响。咱们钻研了静态和灵活两种数据采样战略,以期取得最快的收敛速度和最佳的功能优化。
1. 静态采样
静态采样战略是指在训练环节中经常使用固定的采样权重,不随期间变动。这种方法的好处在于成功便捷且计算开支较小,但或者不可顺应数据散布的灵活变动。
2. 灵活采样
灵活采样战略则会在训练环节中始终调整采样权重,以顺该模型的训练需求和数据散布变动。详细来说,可以每隔一段期间(例如每2.5B tokens)调整一次性采样权重,依据模型在不同数据域上的体现启动调整。这种方法虽然计算开支较大,但可以清楚优化模型的收敛速度和功能。
数据过滤
为了放慢模型的收敛速度,咱们对训练数据启动了严厉的品质过滤。详细来说,咱们过滤掉了低品质的文本数据,如广告和不流利的文本。
1. 广告过滤
广告通常蕴含少量冗余和有关消息,对模型的训练效果影响较大。咱们经过特定的规定和算法,过滤掉了大概50%的广告数据,从而优化了数据集的全体品质。
2. 不流利文本过滤
不流利的文本通常体现为语法失误、拼写失误或逻辑不连接。咱们经常使用人造言语处置技术,过滤掉了大概15%的不流利文本数据,从而进一步优化了模型的训练效率和效果。
试验设置
咱们的试验在112个A100 (80G) GPU上启动训练,最大学习率为2e-4。训练数据集驳回了SlimPajama,该数据集经过荡涤和去重处置,蕴含627B tokens的数据。训练环节中,咱们设置了全局批次大小为15M tokens,最大高低文长度为4096。在经过100步的热身训练后,学习率逐渐降低到2e-5,驳回余弦调度战略。整个训练环节中,咱们对每个模型启动了13.6k步(约200B tokens)的训练。
经过以上面法和设置,咱们成功构建并训练了LLaMA-MoE模型,并在多项义务中清楚逾越了同类模型。
试验结果
LLaMA-MoE-3.5B在多个下游义务上的体现清楚优于其他具备相似激活参数的开源模型,如Sheared-LLaMA和Open-LLaMA-3B-v2。详细来说,LLaMA-MoE-3.5B(4/16)在各种义务中的平均分数超越了最具竞争力的模型Sheared-LLaMA 1.3分。此外,LLaMA-MoE-3.0B与Open-LLaMA-3B-v2体现相当。
在ARC-c和HellaSwag数据集上的体现显示,随着训练环节的推动,模型的功能稳步优化。虽然ARC-c的结果动摇较大,但HellaSwag提供了较为平滑的结果。训练损失方面,LLaMA-MoE-3.0B和LLaMA-MoE-3.5B区分收敛到1.95和1.90,这两个模型激活的参数较少,因此损失较LLaMA-2 7B略高。
专家构建方法对比
在试验中,咱们比拟了四种不同的专家构建方法。结果显示,非堆叠随机拆分法(IndependentRandom)体现最佳。这种方法在训练200B tokens后,体现出最佳的平均分数。相比之下,共享神经元构建方法(SharingInter和SharingInner)在初始阶段体现良好,但随着训练的启动,其功能清楚降低。
咱们还启动了专家输入从新缩放的消融钻研,结果标明,从新缩放操作清楚提高了MoE模型的功能。这标明,专家构建方法对模型最终功能有着关键影响,而从新缩放操作则进一步优化了专家的体现才干。
数据采样战略
在数据采样战略的比拟中,静态采样权重战略(StaticSheared)在功能上优于灵活采样战略。虽然StaticSheared在训练损失上并不是最低的,但其在下游义务上的体现最佳。灵活采样权重战略(DynamicUniform和DynamicLLaMA)在训练损失上动摇较大,显示出不稳固性。
在数据采样权重的变动中,咱们发现不同战略对不同畛域的数据有不同的权重调配。静态采样战略的权重在整个训练环节中坚持不变,而灵活采样战略的权重则随着训练的启动逐突变动。这标明,数据采样战略的选用对模型的训练效率和最终功能有着关键影响。
数据过滤战略
数据过滤战略在提高模型功能方面也起到了关键作用。经过过滤掉广告和不流利文本,训练损失清楚降低。详细而言,过滤掉广告数据的方法在下游义务上的体现不如过滤不流利文本的方法。这或者是因为广告数据中的常识和消息较多,被过滤掉的数量较大,从而影响了模型的功能。
基于这些结果,咱们最终选用经常使用过滤掉不流利文本的数据集启动训练。虽然没有引入新的数据集,但经过过滤局部低品质数据,咱们放慢了模型的收敛速度,并提高了模型的全体体现。
地址:
代码: