一、概述
title:UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
论文地址:
代码:
1.1 Motivation
1.2 Methods
说明:
1.3 Conclusion
二、具体内容
1 GLUE试验结果
P: P-tuning
在样本K=100,500,1000的试验上,UniPELT集成了多个微调方法的成果更好
2 Adapter方法剖析:bottleneck大小对该方法成果的影响
3 LoRA方法对参数的敏理性
针对两个义务SST和MRPC,和不同的参数a来做试验,结果如下:
4 其余方法剖析:
参与训练参数成果不必定好
LoRA训练参数比拟小的状况下,成果如同也还可以
5 UniPELT和原始微调方法的下限对比
6 全量数据的训练成果
7 训练期间和推理期间剖析
三、Adaptor、Prefix-tuning、LoRA背景常识
参考原文:从一致视角看各类高效finetune方法:
1 Adaptor方法引见
Adaptor**是在原Bert中参与参数量更小的子网络,finetune时固定其余参数不变,只降级这个子网络的参数。 Adaptor是最早的一类高效finetune方法的代表,在 Parameter-Efficient Transfer Learning for NLP(ICML 2019) 这篇文章中被提出。在原来的Bert模型的每层两边参与两个adapter。Adapter经过全衔接对原输入启动降维进一步增加参数量,经过外部的NN后再将维度恢复,构成一种bottleneck的结构。在finetune环节中,原预训练Bert模型的参数freeze住不降级,只降级adapter的参数,大大增加了finetune阶段须要降级和保留的参数量。
2 Prefix-tuning方法引见
Prefix-tuning的**是为每个下游义务参与一个prefix embedding,只finetune这些embedding,其余参数freeze 。Prefix-tuning对应的论文是 Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021) ,这类方法的思维起源于prefix prompt,prefix embedding相当于一个高低文消息,对模型最终产出的结果形成影响,进而只finetune这个embedding成功下游义务的迁徙。
3LoRA方法引见
LoRA的**是经过引入参数量远小于原模型的可合成的两小矩阵建设一个旁路,经过finetune这个旁路来影响预训练模型 。LoRA于 LoRA: Low-rank adaptation of large language models(2021) 论文中被提出,应用低秩矩阵代替原来全量参数的训练,优化finetune效率。
本文转载自,作者: