在深度神经网络的训练环节中,全量化训练(Fully Quantized Training, FQT)经过将激活值、权重和梯度量化到较低的精度,清楚减速了训练环节。随着对训练数值精度的始终紧缩,一个人造而然的疑问显现进去:全量化训练的极限是什么?即,能够成功的最低位宽是多少?现实状况下,假设能将位宽紧缩到1位,训练将可以经过二进制操作成功,这不只能极大简化配件设计,还或者在坚持训练品质的前提下,成功极致的计算效率。
本文初次尝试将全量化训练的精度推向1位极限。咱们提供了基于Adam和SGD的全量化训练的切实剖析,并提醒了梯度方差如何影响全量化训练的收敛性。在此基础上,咱们引入了激活梯度修剪(Activation Gradient Pruning, AGP)战略,经过修剪不太有消息量的梯度,并提高残余梯度的数值精度来缩小梯度方差。此外,咱们还提出了样本通道联结量化(Sample Channel joint Quantization, SCQ)战略,该战略在权重梯度和激活梯度的计算中驳回不同的量化战略,以确保方法对低位宽配件友好。最终,咱们展现了如何部署咱们的算法,并在多个数据集上对VGGNet-16和ResNet-18启动微调,平均准确率提高了约6%,训练速度优化了最高达5.13倍。
论文基本消息
Beijing Jiaotong UniversityTsinghua University 地址:
全量化训练(FQT)的概述
全量化训练(Fully Quantized Training,简称FQT)是一种经过将激活值、权重和梯度量化为低精度数值格局来减速深度神经网络训练的技术。这种方法使得在低精度配件上能够极速成功前向和后向流传,从而提高计算和内存效率。随着钻研的深化,FQT的数值精度曾经从最后的16位(FP/INT16)逐渐降低到8位(FP/INT8),并且目前一些钻研曾经将精度成功降至4位。
虽然FQT在提高训练速度方面具备后劲,但其应战在于切实了解的无余,尤其是梯度量化对收敛性的影响,以及梯度的少量化误差或者造成功能急剧降低或甚至发散。目前的钻研前沿仍逗留在4位FQT,但探求将位宽推向更低极限,即1位FQT,是未来的钻研方向。
1-bit FQT的切实剖析
在咱们的钻研中,咱们初次尝试将全量化训练的精度推向1位(1-bit FQT)。经过对Adam和SGD两种优化器的切实剖析,咱们发现梯度方差是影响FQT收敛性的关键起因。详细来说,咱们的剖析提醒了在低位宽状况下,Adam优化器比SGD更适宜于FQT,由于Adam对梯度方差的敏感度较低。
为了应答由梯度量化惹起的少量化误差,咱们提出了激活梯度修剪(Activation Gradient Pruning,AGP)战略。该战略应用梯度的异质性,经过剪除消息量较少的梯度组,并将节俭上去的资源用于提高残余梯度的数值精度,从而缩小梯度方差。此外,咱们还提出了样本通道联结量化(Sample Channel joint Quantization,SCQ)战略,该战略在计算权重梯度和激活梯度时驳回不同的量化方法,确保两者都能在低位宽计算单元上有效成功。
经过在多个数据集上对VGGNet-16和ResNet-18启动微调,咱们的1-bit FQT算法在平均精度上比每个样本量化提高了约6%,并且训练速度优化最高可达5.13倍。这些结果标明,在特定义务中,FQT的精度可以被推向极限1位。
提出的1-bit FQT算法
1-bit FQT算法是在全量化训练(Fully Quantized Training, FQT)的基础上,进一步推进模型训练中的数值精度降至1比特。全量化训练经过将激活值、权重和梯度量化到较低的数值精度,减速了深度神经网络的训练环节。在本钻研中,咱们初次尝试将FQT的精度推至1比特极限。
1.1 切实剖析
咱们基于Adam和SGD优化器对FQT启动了切实剖析。剖析结果标明,梯度的方差是影响FQT收敛性的关键起因。Adam优化器在低比特宽度训练中体现出比SGD更好的稳固性,这是由于Adam对梯度方差的敏感度较低。
1.2 算法组成
1-bit FQT算法包含激活梯度修剪(Activation Gradient Pruning, AGP)和样本通道联结量化(Sample Channel joint Quantization, SCQ)两个重要战略。AGP战略经过剪除消息量较少的梯度组,从新调配资源以提高残余梯度的数值精度,从而缩小梯度方差。SCQ战略则在权重梯度和激活梯度的计算中驳回不同的量化方法,确保这些操作能够在低比特宽度的配件上高效口头。
试验设计与结果
为了验证1-bit FQT算法的有效性,咱们在多个数据集上对VGGNet-16和ResNet-18模型启动了微调试验。
2.1 试验设置
咱们选用了包含CIFAR-10、CIFAR-100、Flowers和Pets等多个视觉分类数据集。试验中,一切模型首先在ImageNet数据集上启动预训练,而后经常使用1-bit FQT算法启动微调。
2.2 重要结果
试验结果显示,与传统的每样本量化方法相比,咱们的1-bit FQT算法在多个数据集上平均提高了约6%的准确率。特意是在Flowers和Pets数据集上,准确率损失简直可以疏忽不计(小于1%),这标明在某些状况下1-bit FQT是十分有效的。此外,咱们的方法在训练速度上最高可到达传统全精度训练的5.13倍减速。
探讨与未来方向
在本钻研中,咱们初次尝试将全量化训练(FQT)的精度推至1比特。经过切实剖析和试验验证,咱们发现梯度方差是影响FQT收敛性的关键起因。基于此,咱们提出了激活梯度修剪(AGP)战略和样本通道联结量化(SCQ)战略,有效降低了梯度方差,提高了模型的训练效率和精度。
未来的钻研方向可以从以下几个方面启动探求:
优化量化战略 :虽然咱们的AGP和SCQ战略曾经取得了必定的功效,但仍有进一步优化的空间。例如,探求更高效的梯度修剪方法或更精细的量化级别调整,以顺应更宽泛的网络结构和数据集。 裁减到其余网络架构 :目前的钻研重要集中在卷积神经网络(CNN)上,未来可以将1比特FQT裁减到其余类型的深度学习模型,如循环神经网络(RNN)和Transformer,测验其在不同架构上的普适性和有效性。 从头训练的探求 :目前1比特FQT重要运行于迁徙学习和微调场景,从头开局训练的场景仍是一个开明的疑问。未来的钻研可以探求在无预训练模型的状况下,如何有效实施1比特FQT,以及如何解决由此带来的梯度方差疑问。
本文转载自,作者: