Law后继乏力今天最热论文 AI大佬齐刷刷附议 Scaling 量化也不论用

koi

2024-11-15 05:53:04发布
关注私信

426 264 668

几十万人关注，一宣布即被行业大佬评为“这是很长期间以来最关键的论文”。

哈佛、斯坦福、MIT等团队的一项钻研标明：训练的token越多，须要的精度就越高。

例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的参与，计算最优的精度也会参与。

换句话就是，关于大规模的训练义务，低精度的量化或许不再足够有效。

依照论断，对Scaling Law的遵照象征着咱们须要坚持更高精度，但是不时以来，人们通常会选用量化（将延续值或多精度值转换为较低精度）来节俭计算资源。

一旦论断成立，GPU的设计和配置或许也须要相应调整，由于传统上，GPU的性能优化局部依赖于对低精度计算的优化。

正如艾伦AI钻研所迷信家所指出的：

与此同时，钻研得出了 两个关键论断 ：

这也引来OpenAI员工大赞特赞：

提出“精度感知”Scaling Laws

一过去，钻研就指出，裁减的焦点关键放在了模型规模、数据量上，漠视了对精度的关注。

而理想上，随着模型进一步运行落地，低精度量化正在成为新的范式。

因此，钻研想要搞清：

详细而言，团队钻研了在预训练和后训练，随着数据和参数的变动，精度对损失的影响如何变动。

同时，为了准确测量关系变动，团队专门提出了 “精度感知（precision-aware）” 的Scaling Laws，以预测和优化不同精度下的言语模型训练和推理。

先说论断。下图展现了两个关键的试验结果：

详细而言，左侧图表展现了在不同精度下训练模型的成果。

其中纵轴示意最终的验证损失（Val Loss），横轴示意不同的模型规模（Model Size），从30M到220M参数。不同的色彩代表了不同的训练精度，从INT3到INT6，以及没有后训练量化（No PTQ）。

钻研发现，在较低精度下训练模型（例如INT3和INT4）会造成较高的损失，而随着精度的提高，损失会缩小；同时，随着模型规模的参与，损失也会缩小。

另外，右侧图表展现了在不同精度下 启动推理 时的模型性能。

其中横轴示意了推理时的权重精度（Final Val Loss）。

结果显示，在推理时经常使用较低精度（例如INT3和INT4）会造成性能降低，即损失的参与；而随着精度的提高，损失会逐渐缩小，凑近没有启动后训练量化的模型性能。

上述发现也解释了为什么Llama-3难以量化？

要知道，Llama-3颁布后，它因“超15T Token数据上的超大规模预训练”而知名，不过人们起初发现，Llama-3低比特量化性能降低清楚。

这或许正如钻研提到的，模型在预训练阶段看到的数据越多，对量化的敏理性就越高。

与此同时，钻研还发现了：

换句话说，在少量数据上训练的模型，假设在推理时启动低精度的PTQ，或许会造成性能清楚降低。

接上去，团队提出应用“精度感知”Scaling Laws来预测模型在不同精度下的性能，并指出：

其中蕴含两个关键公式，它们造成了一个一致的通常框架，用于预测不同精度下训练和推理的性能。

训练后量化（PTQ）惹起的损失退步预测公式：

思考训练精度的模型损失预测公式：

一致预训练与后训练的精度预测

BTW，钻研最终将后训练量化和预训练量化的影响一致同来，以此成功：

关系公式如下：

同时，为了验证预测的准确性，钻研对超越465次预训练运转的数据启动拟合，并在高达1.7亿参数、训练了高达260亿个token的模型上启动了验证。

并在环节中提出了 以下几点倡导 ：

不过，这项钻研目前也存在必定局限性，比如作者自述经常使用了一个固定的模型架构来控制变量。

这象征着，关系结果或许不适用于经过架构调整的低精度训练模型，由于架构的变动或许会影响模型对精度变动的敏理性。

最后，有网友还想得更远。提出一旦量化失败，还有3条路可以思考：

你怎样看？

参考链接：[1]。[2]。

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#大模型 #人工默认 #AI

Law后继乏力 今天最热论文 AI大佬齐刷刷附议 Scaling 量化也不论用

提出“精度感知”Scaling Laws

一致预训练与后训练的精度预测

Law后继乏力今天最热论文 AI大佬齐刷刷附议 Scaling 量化也不论用