企业宣传,产品推广,广告招商,广告投放联系seowdb

ICLR 唯快不破!面向极限紧缩的全二值化BiBERT 2022

近年来,预训练言语模型在人造言语处置上体现出色,但其庞大的参数量阻碍了它在实在环球的配件设施上的部署。

近日,机器学习顶会接纳论文结果曾经正式发布,至少有9项上班展现了 神经网络量化 方向的关系停顿。

本文将引见首个用于人造言语义务的 全二值量化BERT模型——BiBERT ,具备高达56.3倍和31.2倍的FLOPs和模型尺寸的节俭。

这项钻研上班由北京航空航天大学刘祥龙传授团队、南洋理工大学和百度公司独特成功。

预训练言语模型在人造言语处置上体现出色,但其庞大的参数量阻碍了它在实在环球的配件设施上的部署。

现有的模型紧缩方法包含参数量化、蒸馏、剪枝、参数共享等等。

其中,参数量化方法高效地经过将浮点参数转换为定点数示意,使模型变得紧凑。

钻研者们提出了许多打算例如Q-BERT[1]、Q8BERT[2]、GOBO[3]等,但量化模型依旧面临重大的表白才干有限和优化艰巨的疑问。

幸运的是,常识蒸馏作为一种习用的辅佐优化的手腕,令量化模型模拟全精度老师模型的特色表白,从而较好地处置精度损失疑问。

在本文中,来自北航、NTU、百度的钻研人员提出了BiBERT,将权重、激活和嵌入均量化到 1比特 (而不只仅是将权重量化到1比特,而激活维持在4比特或更高)。

这样能使模型在推理时经常使用逐位运算操作,大大放慢了模型部署到实在配件时的推理速度。

咱们钻研了BERT模型在二值化环节中的性能损失,作者在消息通常的基础上引入了一个高效的 Bi-Attention (二值留意力)机制,处置前向流传中二值化后的留意力机制的消息退步疑问;提出 方向婚配蒸馏 (Direction-Matching Distillation)方法,处置后向流传中蒸馏的优化方向不婚配疑问。

BiBERT初次证实了BERT模型全二值化的可行性,在GLUE数据集上的准确性极大地逾越了现有的BERT模型二值化算法,甚至超越了更高比特示意的模型。

在模型计算量和体积上,BiBERT通常上能够带来 56.3倍 31.2倍 的FLOPs和模型尺寸的缩小。

咱们的钻研标明,在BERT模型的留意力机制中,softmax函数获取的归一化留意力权重被视为遵照一个概率散布,而间接对其启动二值化会造成齐全的消息丢失,其消息熵退步为0(见图2)。

△图 2 间接对softmax函数运行二值化造成齐全的消息丢失

一个缓解这种消息退步的罕用措施是,在运行sign函数之前对输入张量的散布启动移位,可以示意为:

其中,移位参数也被以为是二值化的阈值,宿愿能使二值化后的熵到达最大。

咱们留意到,softmax函数是保序的,这象征着存在一个固定的阈值使二值化示意的消息熵最大化。

遭到Hard Attention的启示[4],作者用bool函数来二值化留意力权重A:

经过运行bool函数,留意权重中值较低的元素被二值化为0,因此获取的熵值最大的留意权重可以过滤出关键局部的元素。

最终二值留意力机制可以被示意为:

其中,BV是经过sign函数二值化获取的value值,BA是二值化留意力权重,是一个精心设计的 Bitwise-Affine矩阵乘法 (BAMM)运算器,由和位移组成,用于对齐训练和推理表征并启动有效的位计算。

作者发现,因为留意力权重是两个二值化的激活间接相乘而得。

因此,处于决策边缘的值很容易被二值化到雷同一侧,从而间接优化留意力权重经常在训练环节中出现优化方向失配疑问。(见图3)

因此,作者设计了新的蒸馏打算,即针对抢先的Query、Key和Value矩阵,构建相似性矩阵启动对激活的蒸馏:

其中,||·||示意L2正则化。之前的钻研上班标明,以这种形式构建的矩阵被以为能够反映网络关于特定形式的语义了解,并忽视尺度和数值大小影响,能够愈加稳固地示意特色之间的内生关系性,更适宜二值和全精度网络之间的常识传递。

因此,蒸馏损失可以示意为对暗藏层、预测结果和上述激活相似性矩阵的损失之和:

作者的试验证实了所提出的BiBERT能够出色地处置二值化BERT模型在GLUE基准数据集的局部义务上精度解体的疑问,使模型能够稳固优化。

表1标明所提出的Bi-Attention和DMD均可以清楚优化模型在二值化后的体现。

表2和表3中,作者展现了BiBERT优于其余BERT二值化方法,甚至优于更高比特的量化打算:

△表 2 基于BERT的二值化方法对比(有数据增强)

△表 3 基于BERT的二值化方法对比(有数据增强)

其中,50%示意需要二值化后有一半的留意力权重为0,且表中无不凡说明均驳回12层的BERT模型启动量化。

此外,作者测量了在训练环节中的消息熵(见图4),作者提出的方法有效地复原了留意力机制中齐全损失的消息熵。

△图 4 训练环节中的消息熵

同时,作者绘制了训练时的loss降低曲线和准确率,BiBERT相比于基线清楚更快收敛、准确性更高。

△图 5 训练时的Loss和准确率曲线

作者提出的BiBERT作为第一个BERT模型的全二值化方法,为之后钻研BERT二值化建设了通常基础,并剖析了其性能降低的要素,针对性地提出了Bi-Attention和DMD方法,有效提高模型的性能体现。

BiBERT超越了现有的BERT模型二值化方法,甚至优于驳回更多比特的量化打算,通常上BiBERT能够带来56.3倍的FLOPs缩小和31.2倍的模型存储节俭。

宿愿该的上班能够为未来的钻研打下松软的基础。

BiBERT行将基于百度飞桨开源深度学习模型紧缩工具PaddleSlim开源,纵情等候。

传送门会谈论文:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender