几十万人关注,一宣布即被行业大佬评为“这是很长期间以来最关键的论文”。
哈佛、斯坦福、MIT等团队的一项钻研标明:训练的token越多,须要的精度就越高。
例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的参与,计算最优的精度也会参与。
换句话就是,关于大规模的训练义务,低精度的量化或许不再足够有效。
依照论断,对Scaling Law的遵照象征着咱们须要坚持更高精度,但是不时以来,人们通常会选用量化 (将延续值或多精度值转换为较低精度) 来节俭计算资源。
一旦论断成立,GPU的设计和配置或许也须要相应调整,由于传统上,GPU的性能优化局部依赖于对低精度计算的优化。
正如艾伦AI钻研所迷信家所指出的:
与此同时,钻研得出了 两个关键论断 :
这也引来OpenAI员工大赞特赞:
提出“精度感知”Scaling Laws
一过去,钻研就指出,裁减的焦点关键放在了模型规模、数据量上,漠视了对 精度 的关注。
而理想上,随着模型进一步运行落地,低精度量化正在成为新的范式。
因此,钻研想要搞清:
详细而言,团队钻研了在预训练和后训练 ,随着数据和参数的变动,精度对损失的影响如何变动。
同时,为了准确测量关系变动,团队专门提出了 “精度感知(precision-aware)” 的Scaling Laws,以预测和优化不同精度下的言语模型训练和推理。
先说论断。下图展现了两个关键的试验结果:
详细而言,左侧图表展现了在不同精度下训练模型的成果。
其中纵轴示意最终的验证损失(Val Loss),横轴示意不同的模型规模(Model Size),从30M到220M参数。不同的色彩代表了不同的训练精度,从INT3到INT6,以及没有后训练量化(No PTQ)。
钻研发现,在较低精度下训练模型(例如INT3和INT4)会造成较高的损失,而随着精度的提高,损失会缩小;同时,随着模型规模的参与,损失也会缩小。
另外,右侧图表展现了在不同精度下 启动推理 时的模型性能。
其中横轴示意了推理时的权重精度(Final Val Loss)。
结果显示,在推理时经常使用较低精度(例如INT3和INT4)会造成性能降低,即损失的参与;而随着精度的提高,损失会逐渐缩小,凑近没有启动后训练量化的模型性能。
上述发现也解释了为什么Llama-3难以量化?
要知道,Llama-3颁布后,它因“超15T Token数据上的超大规模预训练”而知名,不过人们起初发现,Llama-3低比特量化性能降低清楚。
这或许正如钻研提到的,模型在预训练阶段看到的数据越多,对量化的敏理性就越高。
与此同时,钻研还发现了:
换句话说,在少量数据上训练的模型,假设在推理时启动低精度的PTQ,或许会造成性能清楚降低。
接上去,团队提出应用“精度感知”Scaling Laws来预测模型在不同精度下的性能,并指出:
其中蕴含两个关键公式,它们造成了一个一致的通常框架,用于预测不同精度下训练和推理的性能。
训练后量化(PTQ)惹起的损失退步预测公式:
思考训练精度的模型损失预测公式:
一致预训练与后训练的精度预测
BTW,钻研最终将后训练量化和预训练量化的影响一致同来,以此成功:
关系公式如下:
同时,为了验证预测的准确性,钻研对超越465次预训练运转的数据启动拟合,并在高达1.7亿参数、训练了高达260亿个token的模型上启动了验证。
并在环节中提出了 以下几点倡导 :
不过,这项钻研目前也存在必定局限性,比如作者自述经常使用了一个固定的模型架构来控制变量。
这象征着,关系结果或许不适用于经过架构调整的低精度训练模型,由于架构的变动或许会影响模型对精度变动的敏理性。
最后,有网友还想得更远。提出一旦量化失败,还有3条路可以思考:
你怎样看?
参考链接:[1]。[2]。