企业宣传,产品推广,广告招商,广告投放联系seowdb

成年人当然是全都要 小孩子才做选用 大模型微调哪家好

一、概述

title:UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning

论文地址:

代码:

1.1 Motivation

1.2 Methods

说明:

1.3 Conclusion

二、具体内容

1 GLUE试验结果

P: P-tuning

在样本K=100,500,1000的试验上,UniPELT集成了多个微调方法的成果更好

2 Adapter方法剖析:bottleneck大小对该方法成果的影响

3 LoRA方法对参数的敏理性

针对两个义务SST和MRPC,和不同的参数a来做试验,结果如下:

4 其余方法剖析:

参与训练参数成果不必定好

LoRA训练参数比拟小的状况下,成果如同也还可以

5 UniPELT和原始微调方法的下限对比

6 全量数据的训练成果

7 训练期间和推理期间剖析

三、Adaptor、Prefix-tuning、LoRA背景常识

参考原文:从一致视角看各类高效finetune方法:​ ​​ ​

1 Adaptor方法引见

Adaptor**是在原Bert中参与参数量更小的子网络,finetune时固定其余参数不变,只降级这个子网络的参数。 Adaptor是最早的一类高效finetune方法的代表,在 Parameter-Efficient Transfer Learning for NLP(ICML 2019) 这篇文章中被提出。在原来的Bert模型的每层两边参与两个adapter。Adapter经过全衔接对原输入启动降维进一步增加参数量,经过外部的NN后再将维度恢复,构成一种bottleneck的结构。在finetune环节中,原预训练Bert模型的参数freeze住不降级,只降级adapter的参数,大大增加了finetune阶段须要降级和保留的参数量。

2 Prefix-tuning方法引见

Prefix-tuning的**是为每个下游义务参与一个prefix embedding,只finetune这些embedding,其余参数freeze 。Prefix-tuning对应的论文是 Prefix-Tuning: Optimizing Continuous Prompts for Generation(2021) ,这类方法的思维起源于prefix prompt,prefix embedding相当于一个高低文消息,对模型最终产出的结果形成影响,进而只finetune这个embedding成功下游义务的迁徙。

3LoRA方法引见

LoRA的**是经过引入参数量远小于原模型的可合成的两小矩阵建设一个旁路,经过finetune这个旁路来影响预训练模型 。LoRA于 LoRA: Low-rank adaptation of large language models(2021) 论文中被提出,应用低秩矩阵代替原来全量参数的训练,优化finetune效率。

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender