近期,大言语模型、文生图模型等大规模 AI 模型迅猛开展。在这种情势下,如何顺应瞬息万变的需求,极速适配大模型至各类下游义务,成为了一个关键的应战。受限于计算资源,传统的全参数微调方法或者会显得力所能及,因此须要探求更高效的微调战略。上述应战催生了参数高效微调(PEFT)技术在近期的极速开展。
为了片面总结 PEFT 技术的开展历程并及时跟进最新的钻研停顿,最近,来自美国西南大学、加州大学 Riverside 分校、亚利桑那州立大学和纽约大学钻研者们调研、整顿并总结了参数高效微调(PEFT)技术在大模型上的运行及其开展前景,并总结为一篇片面且前沿的综述。
论文链接:
PEFT 提供了一个高效的针对预训练模型的下游义务适配手腕,其经过固定大局部预训练参数并微调极少数参数,让大模型轻装上阵,迅速适配各种下游义务,让大模型变得不再「巨无霸」。
全文长达 24 页,涵盖了近 250 篇最新文献,刚颁布就曾经被斯坦福大学、北京大学等机构所援用,并在各平台都有着不小的热度。
详细来说,该综述区分从 PEFT 算法分类,高效 PEFT 设计,PEFT 跨畛域运行,以及 PEFT 系统设计部署四大层面,对 PEFT 的开展历程及其最新停顿启动了片面且粗疏的论述。无论是作为相关行业从业者,或是大模型微调畛域的初学者,该综述均可以充任一个片面的学习指南。
1、PEFT 背景引见
论文首先以最近大热的 LLaMA 模型作为代表,剖析并论述了大言语模型(LLM)和其他基于 Transformer 的模型的架构和计算流程,并定义了所需的符号示意,以便于在后文剖析各类 PEFT 技术。
此外,作者还概述了 PEFT 算法的分类方法。作者依据不同的操作将 PEFT 算法划分为加性微调、选用性微调、重参数化微和谐混合微调。图三展现了 PEFT 算法的分类及各分类下蕴含的详细算法称号。各分类的详细定义将在后文详细解说。
在背景局部,作者还引见了验证 PEFT 方法性能所经常使用的经常出现下游基准测试和数据集,便于读者相熟经常出现的义务设置。
2、PEFT 方法分类
作者首先给出了加性微调、选用性微调、重参数化微和谐混合微调的定义:
这三者的区分如图四所示:
混合微调 结合了各类 PEFT 方法的长处,并经过剖析不同方法的相似性以构建一个一致的 PEFT 架构,或寻觅最优的 PEFT 超参数。
接上去,作者对每个 PEFT 种类进一步细分:
A. 加性微调:
Adapter 经过在 Transformer 块内增加小型 Adapter 层,成功了参数高效微调。每个 Adapter 层蕴含一个下投影矩阵、一个激活函数,和一个上投影矩阵。下投影矩阵将输入特色映射到瓶颈维度 r,上投影矩阵将瓶颈特色映射回原始维度 d。
图五展现了三种典型的 Adapter 层在模型中的拔出战略。Serial Adapter 顺序地拔出到 Transformer 模块之后,Parallel Adapter 则并行地拔出到 Transformer 模块旁。CoDA 是一种稠密的 Adapter 方式,关于关键的 token,CoDA 同时应用预训练 Transformer 模块和 Adapter 分支启动推理;而关于不关键的 token,CoDA 则仅经常使用 Adapter 分支启动推理,以节俭计算开支。
2)Soft Prompt
Soft Prompt 经过在输入序列的头部增加可学习的向量,以成功参数高效微调。代表性方法包括 Prefix-tuning 和 Prompt Tuning。Prefix-tuning 经过在每个 Transformer 层的键、值和查问矩阵前面增加可学习的向量,成功对模型示意的微调。Prompt Tuning 仅仅在首个词向量层拔出可学习向量,以进一步缩小训练参数。
除了上述两种分类,还有一些 PEFT 方法雷同也是在训练环节引入新的参数。
典型的两种方法如图六所示。(IA) 3 引入了三个缩放向量,用于调整键、值以及前馈网络的激活值。SSF 则经过线性变换来调整模型的激活值。在每一步操作之后,SSF 都会增加一个 SSF-ADA 层,以成功激活值的缩放敌对移。
B. 选用性微调:
1)非结构化掩码
这类方法经过在模型参数上增加可学习的二值掩码来确定可以微调的参数。许多上班,如 Diff pruning、FishMask 和 LT-SFT 等,都专一于计算掩码的位置。
2)结构化掩码
非结构化掩码关于掩码的状态没有限度,但这就造成了其影响效率低下。因此,一些上班,如 FAR、S-Bitfit、Xattn Tuning 等均对掩码的状态启动了却构化的限度。两者的区别如下图所示:
C. 重参数化微调:
1)低秩合成
这类方法经过寻觅预训练权重矩阵的各种低维度重参数化方式,以代表整个参数空间启动微调。其中最为典型的方法为 LoRA,它经过增加两个额外的上投影和下投影矩阵来构建原始模型参数的低秩示意用于训练。在训练后,额外引入的参数还可以被无缝的兼并到预训练权重中,防止引入额外推理开支。DoRA 将权重矩阵解耦为模长和方向,并应用 LoRA 来微调方向矩阵。
2)LoRA 衍生方法
作者将 LoRA 的衍生方法分为了灵活选用 LoRA 的秩以及 LoRA 在各方面的优化。
LoRA 灵活秩中,典型方法为 DyLoRA,其结构了一系列秩,用于在训练环节中同时训练,从而缩小了用于寻觅最优秩所消耗的资源。
LoRA 优化中,作者罗列了传统 LoRA 在各个方面的毛病以及对应的处置打算。
D. 混合微调:
这局部钻研如何将不同 PEFT 技术融合进一致模型,并寻觅一个最优的设计形式。此外,也引见了一些驳回神经架构搜查(NAS)用以获取最优 PEFT 训练超参数的打算。
3、高效 PEFT 设计
这局部,作者讨论了优化 PEFT 效率的钻研,重点关注其训练和推理的提前和峰值内存开支。作者关键经过三个角度来形容如何优化 PEFT 的效率。区分是:
PEFT 剪枝战略: 行将神经网络剪枝技术和 PEFT 技术结合,以进一步优化效率。代表上班有 AdapterDrop、SparseAdapter 等。
PEFT 量化战略: 即经过降落模型精度来缩小模型大小,从而提高计算效率。在与 PEFT 结合时,其关键难点是如何更好的统筹预训练权重以及新增的 PEFT 模块的量化处置。代表上班有 QLoRA、LoftQ 等。
内存高效的 PEFT 设计: 虽然 PEFT 能够在训练环节中只降级大批参数,然而因为须要启动梯度计算和反向流传,其内存占用依然较大。为了应答这一应战,一些方法试图经过绕过预训练权重外部的梯度计算来缩小内存开支,比如 Side-Tuning 和 LST 等。同时,另一些办规律尝试防止在 LLM 外部启动反向流传,以处置这一疑问,例如 HyperTuning、MeZO 等。
4、PEFT 的跨畛域运行
在这一章中,作者讨论了 PEFT 在不同畛域的运行,并就如何设计更优的 PEFT 方法以优化特定模型或义务的性能启动了讨论。本节关键围绕着各种大型预训练模型开展,包括 LLM、视觉 Transformer(ViT)、视觉文本模型以及分散模型,并详细形容了 PEFT 在这些预训练模型的下游义务适配中的作用。
在 LLM 方面,作者引见了如何应用 PEFT 微调 LLM 以接受视觉指令输入,代表性上班如 LLaMA-Adapter。此外,作者还讨论了 PEFT 在 LLM 继续学习中的运行,并提及了如何经过 PEFT 微调 LLM 来裁减其高低文窗口。
针对 ViT,作者区分形容了如何应用 PEFT 技术使其适配下游图像识别义务,以及如何应用 PEFT 赋予 ViT 视频识别才干。
在视觉文本模型方面,作者针对开明集图像分类义务,引见了许多运行 PEFT 微调视觉文本模型的上班。
关于分散模型,作者识别了两个经常出现场景:如何增加除文本外的额外输入,以及如何成功共性化生成,并区分形容了 PEFT 在这两类义务中的运行。
5、PEFT 的系统设计应战
在这一章中,作者首先形容了基于云服务的 PEFT 系统所面临的应战。关键包括以下几点:
集中式 PEFT 查问服务: 在这种形式下,云主机存储着单个 LLM 模型正本和多个 PEFT 模块。依据不同 PEFT 查问的义务需求,云主机会选用相应的 PEFT 模块并将其与 LLM 模型集成。
散布式 PEFT 查问服务: 在这种形式下,LLM 模型存储在云主机上,而 PEFT 权重和数据集存储在用户设施上。用户设施经常使用 PEFT 方法对 LLM 模型启动微调,而后将微调后的 PEFT 权重和数据集上行到云主机。
多 PEFT 训练: 应战包括如何治理内存梯度和模型权重存储,以及如何设计一个有效的内核来批量训练 PEFT 等。
针对上述系统设计应战,作者又罗列了三个详细的系统设计案例,以更深化的剖析这些应战与其可行的处置战略。
Offsite-Tuning: 关键处置微调 LLM 时产生的数据隐衷困境以及少量资源消耗的疑问。
提供了一个一致的服务框架,针对 PEFT 模块提供一致的治理和调度机制。
PEFT 并行训练框架: 引见了两种并行 PEFT 训练框架,包括 S-LoRA 和 Punica,以及他们如何优化 PEFT 的训练效率。
6、未来钻研方向
作者以为,虽然 PEFT 技术曾经在很多下游义务取得了成功,但仍有一些无余须要在未来的上班中加以处置。
建设一致的评测基准: 虽然已存在一些 PEFT 库,但缺乏一个片面的基准来偏心比拟不同 PEFT 方法的成果和效率。建设一个公认的基准将促成社区内的翻新和协作。
增强训练效率: PEFT 在训练环节中,其可训练参数量并不总是与训练环节中的计算和内存节俭分歧。如高效 PEFT 设计章节所述,未来的钻研可以进一步探求优化内存和计算效率的方法。
探求裁减定律: 许多 PEFT 技术都是在较小的 Transformer 模型上成功的,而其有效性不必定实用于当初的各种大参数量模型。未来的钻研可以探求如何顺应大型模型的 PEFT 方法。
服务更多模型和义务: 随着更多大型模型的产生,如 Sora、Mamba 等,PEFT 技术可以解锁新的运行场景。未来的钻研可以关注为特定模型和义务设计 PEFT 方法。
增强数据隐衷: 在服务或微调共性化 PEFT 模块时,核心化系统或者面临数据隐衷疑问。未来的钻研可以探求加密协定来包全团体数据和两边训练 / 推理结果。
PEFT 与模型紧缩: 模型紧缩技术如剪枝和量化对 PEFT 方法的影响尚未获取充沛钻研。未来的钻研可以关注紧缩后的模型如何顺应 PEFT 方法的性能。
原文链接: