摘要: 从头开局训练大型言语模型(LLM)可以生成具有共同性能和长处的模型,但这须要渺小的老本,并或许造成冗余性能。另一种具有老本效益且有目共睹的方法是将现有的预训练LLM兼并为一个更弱小的模型。但是,由于这些LLM架构各不相反,间接融合它们的权重并无法行。在本文中,咱们引入了LLM知识融合的概念,旨在将现有LLM的才干整兼并转移到一个繁多的LLM中。经过应用源LLM的生成散布,咱们外化了它们的群体知识和共同长处,从而有或许将目的模型的才干优化到逾越任何繁多源LLM的水平。咱们经常使用三种具有不同架构的盛行LLM——Llama-2、MPT和OpenLLaMA——在各种基准和义务中验证了咱们的方法。咱们的钻研结果标明,LLM的融合可以提高目的模型在推理、知识和代码生成等多种才干上的体现。咱们的代码、模型权重和数据已地下在(。
(论文思想:假定咱们有三个大型言语模型(LLMs):Llama-2、OpenLLaMA和MPT,它们区分长于不同义务。Llama-2在推理义务中体现最佳,OpenLLaMA在知识问答上体现出色,而MPT在代码生成方面十分弱小。
如今,咱们宿愿经过FUSELLM方法将这三个模型的知识融合到一个新的目的模型中,让这个目的模型同时具有这三种才干。以下是FUSELLM方法如何上班的一个简化示例:
1.概率散布提取:咱们提供一个文本序列,比如`"The capital of France is..."`,让Llama-2、OpenLLaMA和MPT区分预测下一个单词是什么,并生成它们的概率散布。Llama-2或许对“Paris”有较高的概率,OpenLLaMA对“Paris”也有相似的预测,而MPT虽然更长于代码生成,但也会给出一个相对较低的概率。
2.词汇对齐:由于每个模型经常使用的分词器或许不同,咱们须要对齐它们生成的tokens,确保这些模型的输入可以被比拟和融合。例如,假设一个模型预测的是“Paris”,而另一个模型或许将其分为两个token:“Par-” 和 “-is”,咱们经过最小编辑距离对齐这些token。
3.概率融合:咱们将三个模型的概率散布启动融合。假定Llama-2和OpenLLaMA在知识问答中体现较好,它们的预测权重会更高。咱们选用经常使用MinCE方法,也就是选用具有最小交叉熵分数的模型概率散布,因此目的模型会偏差于经常使用Llama-2和OpenLLaMA的预测。
4.继续训练:接着,咱们用这些融合后的概率散布来指点目的模型的训练,经过最小化目的模型的预测与融合散布之间的差异,让目的模型逐渐学习这三个模型的才干。
最终,目的模型经过继续训练,不只可以像Llama-2那样长于推理,还能像OpenLLaMA一样处置知识疑问,并在代码生成义务上有相似MPT的体现。这个融合后的模型将具有更宽泛的才干,能够在多种义务中体现出色。)
1、引言
随着大型言语模型(LLMs)如GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023)系列在各种人造言语处置(NLP)义务中的继续成功,开发属于自己的LLM已成为公司战略的关键。但是,LLM开发老本极端高昂。除了须要少量的训练数据、初级技术、渺小的计算资源和熟练的休息力外,开发环节还对动力消耗和环境形成渺小压力(Rillig et al., 2023)。虽然这些LLMs在结构和性能上有所不同,但它们在一系列NLP义务上有着相似的才干。因此,除了从零开局训练LLM的传统方法外,还有一种代替选用是将现有的LLM组分解一个新的、更弱小的模型,本文称之为LLM的知识融合。假设成功,这种融合不只可以降低初始训练老本,还能使集成模型受益于一切LLM的长处。该新模型也可以经过微和谐顺应各种下游义务。此外,融合也可以出当初专一于特定义务的微调LLM之间。
整合多个模型才干的尝试由来已久。例如,集成方法(Littlestone & Warmuth, 1994; Jiang et al., 2023)间接聚合不同模型的输入,以增强预测性能和鲁棒性。但是,这种方法须要保养多个训练好的模型,并在推理时口头每一个模型,这关于LLM来说是无法行的,由于它们须要少量的内存和推理时期。雷同,这种方法不允许微调,而微调关于许多LLM来说至关关键。另一种方法是经过参数级的算术操作间接将多个神经网络兼并为一个网络(Wortsman et al., 2022; Jin et al., 2022)。这种方法理论假定网络架构一致,并尝试在不同神经网络权重之间建设映射,但在LLM的高低文中,这往往是难以成功的。此外,当参数空间存在较大差异时,权重融合或许会造成次优结果(Li et al., 2022)。
在本文中,咱们从概率散布的角度讨论LLM的融合。关于一个输入文本,咱们以为不同源LLM生成的概率散布可以反映它们对该文本的固有知识。因此,提出的FUSELLM方法应用源LLM的生成散布,将它们的群体知识和集体长处外化,并经过轻量级的继续训练将这些知识转移到目的LLM中。为此,咱们开发了一种新战略,用于对齐来自不同LLM的分词,并探求了两种融合这些多样化LLM生成的概率散布的方法。在继续训练环节中,FUSELLM十分注重最小化目的LLM的概率散布与源LLM的概率散布之间的差异。
为了实证证实FUSELLM的有效性,咱们在一个具有应战性但通用的LLM融合场景中启动试验,其中源模型之间的特性最小。详细来说,咱们重点关注三个具有不同架构和性能的盛行开源LLM:Llama-2(Touvron et al., 2023)、OpenLLaMA(Geng & Liu, 2023)和MPT(Team, 2023)。经过对逾越推理、知识和代码生成的三个基准共42个义务的评价,验证了咱们的方法训练出的目的模型在大少数义务中都优于每个源LLM和基线。此外,咱们经过在多个特定畛域语料库上继续训练单个基础模型,模拟了具有相反架构但性能不同的LLM的存在。依据困惑度(perplexity)的评价结果标明,FUSELLM在将这些结构相反的LLM的才干组合起来时,体现出比传统的集成和权重融合方法更强的后劲。
总而言之,本文讨论了一个新的应战,即LLM的融合,旨在创立一个能够有效应用多样化LLM群体才干和共同长处的一致模型。如图1所示,咱们提出的方法区别于传统的集成和权重融合技术,经过优先外化和转移多个LLM的知识启动融合。本钻研得出了一些或许引发未来钻研的发现。首先,虽然咱们经过轻量级的继续训练在紧凑、高品质的语料库上展现了咱们方法的有效性,但训练语料库的精心选用或许是一个关键思考要素,尤其是其与下游义务的相关性。其次,在源LLM才干差异清楚的状况下,融合性能关于有效联合各自的长处至关关键。最后,与传统的模型集成和融合技术相比,LLM融合畛域仿佛是一条更具探求前景的路径,特意是在思考到LLM的多样化结构和渺小的模型规模时。
图1:展现了传统模型融合技术(集成和权重兼并)以及咱们针对大型言语模型(LLMs)的知识融合方法(FUSELLM)。不同的生物图标代表不同的LLMs,不同种类示意领有不同架构的LLMs。FUSELLM将多个LLMs的知识外化,并将它们的才干转移到目的LLM上。
2、相关上班
模型融合
整合不同模型的才干不时是一个常年的目的,现有的方法关键分为两类。首先,传统的模型集成技术经过联合多个模型的输入来增强系统全体性能(Littlestone & Warmuth, 1994;Sagi & Rokach, 2018)。须要留意的是,这种技术并不触及将多个模型显式地兼并为一个新模型。经常出现的模型集成方法包括加权平均(Littlestone & Warmuth, 1994)或少数投票(Monteith et al., 2011),以整合不同模型的预测结果。最近,Jiang等人(2023)引入了一个集成框架,旨在应用多个开源LLM的多样化长处。该框架首先经常使用成对比拟方法来检测候选输入之间的纤细差异,随后联合最优的候选结果以发生增强的输入,施展其长处并缩小其劣势。
其次,权重融合是另一种经过参数层面成功模型融合的方法。Gupta等人(2020)和Wortsman等人(2022)经过不同战略或性能取得的具有相反结构的模型权重启动融合,以提高全体性能。雷同,Cha等人(2021)、Rame等人(2022)和Arpit等人(2022)经过加权平均不同性能的模型来提高散布外(out-of-distribution)的泛化才干。此外,Jin等人(2022)将为特定畛域或义务设计的模型融合在一同,以创立能够处置一切畛域或义务的通用模型。除了对整个模型启动参数融合之外,Wang等人(2022b)、Huang等人(2023)和Zhang等人(2023)还运行线性数学运算对适配器参数启动融合,以成功更好的泛化性能。
总而言之,虽然模型集成须要并行部署多个模型,权重融合理论仅限于结构相反的模型。相比之下,本文提出的方法允许经过显式转移其知识和才干,将具有不同架构的多个LLM启动融合。
知识蒸馏
知识蒸馏(Hinton et al., 2)最后提出用于模型紧缩,它包括在一个或多个老师模型的指点下训练在校生模型。在NLP畛域,知识蒸馏宽泛运行于文本分类义务中。这些运行包括训练在校生模型以复制老师模型的输入散布(Sanh et al., 2019;Turc et al., 2019),以及老师模型两边层提取的特色(Sun et al., 2019;Jiao et al., 2020)和相关(Wang et al., 2020)。在文本生成畛域,传统方法并重于最小化在校生模型和老师模型生成散布之间的KL散度。这是经过经常使用老师在每个时期步的概率散布作为监视来成功的(Khanuja et al., 2021;Gu et al., 2023),或许间接在老师生成的文本上启动训练(Peng et al., 2023;Xu et al., 2023)。
虽然咱们的方法框架相似于多老师知识蒸馏,但存在两个清楚区别。首先,在传统的知识蒸馏中,在校生模型理论被限度为比老师模型小的尺寸。但是,在咱们的场景中,对目的模型的尺寸没有限度。其次,传统的知识蒸馏理论会造成在校生模型在蒸馏后性能低于老师模型。相反,咱们希冀在融合之后,目的模型的性能能逾越任何单个源模型。
3、大型言语模型的知识融合
LLM融合的关键目的是外化多个源LLM中嵌入的群体知识,并将它们的才干整合到目的LLM中。给定K个源LLM {M},这些模型架构各异,并区分在不同的数据集上启动预训练或微调。咱们提出的**理想是经过预测下一个token来激起这些LLM展现其固有的知识。经过评价这些预测生成的概率散布,咱们经常使用最准确的预测来对目的LLM M启动继续训练,经常使用语料库C并基于因果言语建模(CLM)目的启动训练。在接上去的部分中,咱们首先简明引见基本概念,而后详细说明咱们的LLM融合框架,最后讨论成功细节。
3.1 基本概念
设t示意从语料库C中采样的长度为N的文本序列,t_{<i} = (t_1, t_2,..., t_{i-1})示意第i个token之前的序列。基于因果言语建模(CLM)目的对参数化为θ的言语模型启动训练,其定义为最小化负对数似然:
其中,p_{θ}(t_i | t_{<i})是模型给定前面token后对token t_i的预测概率。
上述目的将序列的似然分解为token级的交叉熵损失,将每个token的预测散布与其单热(one-hot)示意启动比拟。为了提供一个更宽泛的视角,咱们将这种token级的视图从新框定为顺序散布的格局。详细而言,关于文本序列t,咱们将token级预测聚兼并创立一个概率散布矩阵P_{θ}^t in mathbb{R}^{N times V},其中第i行示意模型对第i个token在词汇表大小为V的状况下预测的散布。而后,CLM目的可以解释为缩小P_{θ}^t和单热标签矩阵O^t in 0, 1^{N times V}之间的差异,每行都是对应金标token的单热示意。方式上,CLM目的转化为以下示意:
其中D(·,·)示意两个矩阵之间的差异函数,当经常使用KL散度成功时,等价于公式(1)。
3.2 LLM的融合
基于对言语模型的这一观念,咱们以为概率散布矩阵可以反映其对文本了解中的某些固有知识。因此,来自不同LLM的相反文本的不同概率散布矩阵可用于示意这些模型中嵌入的多样化知识。思考到这一点,所提出的FUSELLM方法经过概率建模来处置LLM的融合,旨在经过融合源LLM的概率散布来创立一个一致的LLM。为成功这一点,在开局融合一组LLM时,FUSELLM会对目的LLM启动轻量级的继续训练,经常使用一个与预训练数据集相似的原始文本语料库。除了依赖CLM目的外,FUSELLM还重点最小化目的LLM的预测概率散布与源LLM概率散布之间的差异。
关于语料库C中的每个文本,咱们运行提供的K个源LLM并取得一组概率散布矩阵,示意为P_{θ_j}^t_{j=1}^{K},其中θ_j示意第j个LLM的参数。应用这些矩阵,咱们将单个模型的知识外化到一个一致的空间,实践上是在文本上创立了一致的概率示意。咱们抵赖源LLM之间词汇表的差异或许造成矩阵P_{θ_j}^t_{j=1}^{K}未对齐。为了处置这个疑问,咱们驳回了一个词汇对齐战略,这将在3.3节中启动解释,以促成跨模型的更分歧概率解释。
在对齐概率矩阵后,咱们继续将它们融合为一个紧凑的示意。可以运行多种融合战略来成功这一目的,详细将在3.3节中详细引见。咱们用P^t来示意融合后的示意矩阵,定义如下:
其中text{Fusion}(·)示意组合多个矩阵的函数,结果矩阵P^t被视为源LLM群体知识和共同长处的示意。
为了将源LLM的才干转移到目的LLM,咱们在目的LLM的预测与融合示意矩阵P^t之间强迫对齐。咱们用Q^t来示意目的LLM对文本t的输入散布矩阵,而后将融合目的定义为:
咱们的继续训练的总体目的包括CLM目的L_{text{CLM}}和融合目的L_{text{Fusion}}的加权组合,公式如下:
3.3 FUSELLM的成功
在本节中,咱们引见FUSELLM方法中词汇对齐和融合函数的成功细节。
词汇对齐
确保多个LLM之间的token对齐对知识融合至关关键,由于它可以保障概率散布矩阵的正确映射。Fu等人(2023)驳回灵活布局的方法,经过递归最小化将一个token序列编辑为另一个序列的总老本。假设两个token之间存在一对一的映射,则对应的概率散布齐全映射。否则,映射的散布退步为单热向量。由于由不同分词器为相反序列生成的token理论差异有限,咱们倡导经过用最小编辑距离(MinED)战略交流Fu等人(2023)提出的准确婚配(EM)解放,以基于最小编辑距离对不同分词器生成的token启动映射。这种对齐方式的放宽有助于在散布矩阵中保管少量消息,同时引入的误差很小。更多词汇对齐的细节可参考附录A。
融合战略
为了在保管源LLM共同长处的同时整合其群体知识,评价不同LLM的品质并对其相应的散布矩阵赋予不同的关键性是至关关键的。为此,在处置文本t时,咱们经常使用散布矩阵与金标标签之间的交叉熵损失作为LLM预测品质的目的(Marion et al., 2023)。较低的交叉熵分数标明源LLM对文本的了解更准确,其预测应赋予更大的权重。基于这一规范,咱们引入了两种融合函数:(1) MinCE:该函数输入交叉熵分数最低的散布矩阵;(2) AvgCE:该函数依据交叉熵分数对散布矩阵启动加权平均。
FUSELLM方法的完整流程在算法1中形容。
4、试验
在咱们的试验中,咱们思考了一种通用但具有应战性的LLM融合场景,其中源模型在架构或性能上简直没有特性。详细来说,咱们在7B规模下启动试验,并选用了三个具有代表性的开源模型:Llama-2、OpenLLaMA和MPT作为融合的源LLM。关于目的LLM,咱们选用了另一个Llama-2 7B,它理论是三个源LLM中最弱小的一个。目的LLM从与源模型相反的预训练权重开局,但在训练时期会降级参数。为了评价FUSELLM的性能,咱们在推理、知识和代码生成才干的基准上启动了试验。
4.1 试验设置
用于继续训练的数据集
为了继续训练目的LLM启动LLM融合,关键的是选用一个紧凑且多样化的训练数据集。咱们选用了MiniPile,这是经过细心的聚类和挑选环节生成的精选数据集。MiniPile由大概100万个文档组成,涵盖22个畛域,蕴含18亿个token,约占Llama-2训练token的0.1%。更少数据集的详细消息可参见附录B。
融合函数
关于融合函数,咱们经常使用最小交叉熵(MinCE)。但是,咱们将在第4.4节中调查经常使用其余融合函数的影响。
训练细节
咱们经常使用批量大小为128、最大长度为2048的Llama-2 7B目的LLM,训练在装备8个每个40GB显存的NVIDIA A100 GPU的单节点上启动。咱们的训练框架基于Huggingface Transformers(Wolf et al., 2020)并经过FlashAttention(Dao et al., 2022)减速。咱们阅历性地将公式(5)中的组合权重(lambda)设置为0.9。训练仅启动一个epoch,约需33小时。更多超参数的细节可参见附录C。
评价
咱们在三个基准上评价FUSELLM,这些基准代表LLM的不同**才干,涵盖推理、知识和代码生成。
- Big-Bench Hard (BBH) (Suzgun et al., 2022)是一个评价LLM推理才干的基准。它蕴含23个选用题义务和4个自在生成义务,来自Big-Bench(Srivastava et al., 2022),可分为四类:算法和算术推理、人造言语了解、环球知识和多言语知识与推理。咱们遵照之前的上班(Wang et al., 2023b),基于少样本链式思想(CoT)揭示生成预测并计算准确婚配(EM)准确率。
- Common Sense (CS) 是一个评价LLM知识才干的基准。咱们思考了5个规范选用题义务:ARC easy和ARC challenge(Clark et al., 2018)、BoolQ(Clark et al., 2019a)、HellaSwag(Zellers et al., 2019)和OpenBookQA(Mihaylov et al., 2018)。咱们经常使用lm-eval-hardness(Gao et al., 2021)启动基于似然的零样本评价。详细来说,咱们选用给定高低文状况下似然最高的选项并报告准确率。
- MultiPL-E (ME) (Cassano et al., 2022)是一个多言语编程基准,用于评价LLM的代码生成才干。它由Python基准(Chen et al., 2021)翻译而成,笼罩18种编程言语的平行数据集。咱们经常使用bigcode-evaluation-hardness(Ben Allal et al., 2022)启动零样本代码生成,触及10种盛行编程言语的HumanEval类义务,并基于每个疑问生成的20个样本报告pass@1(Chen et al., 2021)得分。
基线
在咱们的试验中,咱们将FUSELLM与两组基线启动比拟:(1)原始LLM,包括Llama-2 7B、OpenLLaMA 7B和MPT 7B;(2) Llama-2 CLM:仅经常使用因果言语建模目的在MiniPile上继续训练的Llama-2 7B。
4.2 总体结果
表1展现了FUSELLM与基线方法在BBH上的总体结果。可以看到,三个源LLM在27个BBH义务上的体现各不相反,理论Llama-2体现优于其余模型。经常使用紧凑且多样的语料库启动继续训练后,Llama-2 CLM相较于Llama-2体现出1.86%的相对优化,虽然这一优化相对平和且在不同义务中的分歧性不高。总体而言,FUSELLM在一切27个义务中的平均相对性能优化为5.16%,清楚优于原始Llama-2。在某些特定义务中,FUSELLM的增强成果尤为清楚(例如,Hyperbaton义务中的准确率从54.40优化至65.20)。在一些便捷继续预训练造成性能降低的义务中(如Dyck Languages),FUSELLM经过联合集体源LLM的长处成功了性能复原。须要留意的是,FUSELLM偶然在某些义务(如Geometric Shapes和Word Sorting)上体现不佳,这或许有两个要素。首先,除了Llama-2以外的其余源LLM在这些义务上的体现较差,影响了融合结果。其次,继续训练数据集与下游义务的相关性也对性能降低有所奉献。
表2展现了FUSELLM与基线方法在Common Sense基准上的零样本色能。结果标明,FUSELLM在一切五个义务上继续逾越基线,平均相对性能优化为1.25%。相比之下,Llama-2 CLM仅体现出0.16%的相对优化,且优化幅度较小。在具有应战性的ARC-challenge(2.40%)和OpenBookQA(2.71%)义务中,从Llama-2到FUSELLM的清楚优化突显了FUSELLM在应用群体知识处置复杂疑问方面的有效性。
关于代码生成评价,表3展现了FUSELLM在MultiPL-E基准上的零样本色能。咱们观察到,FUSELLM在10个义务中的9个上优于Llama-2,特意是在某些编程言语(如R)的pass@1得分上有清楚优化,从4.97优化至5.84。由于OpenLLaMA和MPT在代码生成义务中相比Llama-2体现出色,经过FUSELLM融合的结果在平均体现上优化了6.36%,远高于Llama-2 CLM的1.37%优化。但是,值得留意的是,在该评价中FUSELLM依然体现出与OpenLLaMA或MPT相比的性能差距。这种差异可以归因于两个关键要素:Llama-2作为目的模型在代码生成上的初始体现较差,以及继续训练语料库中与代码相关的文本比例无余,预计约为7.59%。
4.3 融合概率散布的成果
咱们讨论了从多个LLM取得的融合概率散布的有效性,并跟踪训练环节中性能优化的趋向。图2展现了在BBH上的少样本CoT性能随训练数据规模的变动状况。咱们的观察标明,FUSELLM相比Llama-2 CLM在准确婚配(EM)准确率上优化了2.5%,并在仅经常使用0.52亿个token时到达了Llama-2 CLM最佳性能。值得留意的是,与Llama-2 CLM须要的15.7亿个token相比,这代表了训练token需求的3.9倍缩小。这些结果标明,LLM生成的概率散布蕴含比原始文本序列更易学习的知识,从而减速了优化环节。
4.4 成功环节剖析
在本节中,咱们深化讨论了FUSELLM成功中的关键要素,包括源LLM的数量、词汇对齐的规范以及融合函数的选用。
源LLM的数量
咱们展现了融合不同数量的LLM的结果。咱们留意到,随着模型数量从1参与到3,FUSELLM的性能清楚提高。但是,整合更多模型的好处在各个基准中的体现有所不同。在BBH中,性能优化是显而易见的;而在CS或ME中,当融合两个模型时,优化成果愈加清楚。这种现象或许是由于三个模型在BBH中的各项义务上性能差异较大,而在CS或ME义务上的性能差异相对较小。
词汇对齐的规范
在LLM融合环节中,确保不同模型生成的tokens和词汇表的分歧性至关关键。显然,基于最小编辑距离(MinED)的方法相比Fu等人(
2023)提出的准确婚配(EM)方法体现更优。咱们推测这种性能优化源于MinED的宽松限度,能够有效对齐由不同分词器生成的细微差异的tokens,从而保管了少量有用的token消息,同时引入的失误较少。
融合函数的选用
在3.3节中,咱们引见了FUSELLM的两种融合函数:一种是经常使用最小交叉熵分数(MinCE)的散布矩阵,另一种是基于交叉熵分数对散布矩阵启动加权平均(AvgCE)。结果标明,FUSELLM经常使用MinCE在一切基准上的体现优于AvgCE。这或许是由于AvgCE中的便捷加权平均引入了歪曲,削弱了各个LLM的共同长处。
4.5 FUSELLM与知识蒸馏的比拟
虽然知识蒸馏技术也可以用于优化LLM的才干,但FUSELLM在两个方面锋芒毕露,正如前文所述。在本节中,咱们将FUSELLM与传统的知识蒸馏启动比拟。详细而言,咱们从Llama-2 13B中提取概率散布,并运行传统知识蒸馏方法,将其才干转移到Llama-2 7B中。经过知识蒸馏取得的模型(Llama-2 KD)在一切基准上体现优于原始Llama-2 7B,证实了知识蒸馏的有效性。但是,与FUSELLM相比,Llama-2 KD的优化幅度相对较小,尤其是在BBH中(2.97% vs. 5.16%)。这标明经过继续训练集成三种具有不同架构的7B模型,FUSELLM取得的优越结果逾越了从单个13B模型中便捷提取知识的收益。这一观察突出了“更多有不同,差异也能成就更多”的理念。
4.6 FUSELLM与集成/融合的比拟
正如之前提到的,传统技术如模型集成和权重融合理论用于融合多个大型言语模型(LLMs)。为了比拟咱们提出的FUSELLM与这些现有融合方法的有效性,咱们启动了试验,模拟了多个LLM起源于相反基础模型但在不同语料库上训练的场景。咱们首先从The Pile数据集当选用了三个相关畛域(PhilPapers、NIH ExPorter和USPTO Backgrounds),并经常使用每个畛域的10亿个token对Pythia 1B模型(Biderman等人, 2023)启动继续训练,生成了三个结构相反但畛域不同的LLM。而后,咱们将不同的融合技术运行于这些LLM:(1)集成方法计算一切LLM生成的概率的加权平均值,权重基于每个模型的体现;(2)权重融合方法在参数空间中融合多个LLM,融合权重由模型体现选择;(3) FUSELLM在从这三个畛域中采样的1亿个token上启动继续训练。
表7展现了FUSELLM和其余融合方法在测试集上的困惑度(perplexity)结果,咱们经常使用The Pile中成功的方法,按每个UTF-8编码字节(BPB)测量困惑度。咱们观察到,经过10亿个token的训练后,原始LLM的才干被转移到每个特定畛域的LLM中,造成它们在其余畛域的体现降低。虽然一切融合技术都能够整合不同模型的长处,但FUSELLM在三个畛域中一直成功了最低的平均困惑度,这标明它比集成和权重融合方法更有效地利用群体知识。
5、论断
本文提出了一种称为FUSELLM的新方法,用于成功大型言语模型(LLMs)的知识融合。咱们的关键目的是将多个源LLM的群体知识和共同长处外化,并将这些知识转移到一个目的LLM中。经过从不同的LLM中提取概率散布,咱们应用源模型的多样化才干,使目的LLM在推理、知识和代码生成等义务上的体现获取优化。与传统的模型集成和权重融合方法不同,FUSELLM能够在架构不同的LLM之间成功知识融合。
咱们经过试验验证了FUSELLM的有效性,试验结果标明在不同的评价基准上,FUSELLM的目的模型在大少数义务中的性能逾越了任何单个源LLM。虽然咱们的方法曾经展现了其后劲,未来的钻研仍可进一步探求以下方向:钻研如何在更多LLM之间成功更有效的融合,并开发愈加高效的训练战略,以进一步缩小所需的训练时期和资源。
1School of Computer Science and Engineering, Sun Yat-sen University, China 2Tencent AI Lab
AIRoobt ,作者:AIRoobt
原文链接: