企业宣传,产品推广,广告招商,广告投放联系seowdb

LLM新巅峰

本文提出了mllm-NPU,这是第一个有效应用设施上神经处置单元(NPU)卸载的LLM推理系统。mllm-NPU的关键设计指标是缩小预填充提前和能耗。它针对干流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思维是最大限制地在移动NPU上口头预填充,以减速整数计算,同时坚持在CPU/GPU上口头必要的浮点操作以坚持准确性。为了克制上述应战并提高NPU卸载效率,mllm-NPU在三个层面上重构了揭示和模型:(1)在揭示层面:mllm-NPU将可变长度的揭示宰割成多个固定大小的块,同时坚持数据依赖性;(2)在张量层面:mllm-NPU识别并提取关键的意外值以在CPU/GPU上运转;(3)在块层面:mllm-NPU依据配件亲和性和对准确性的敏感度将变压器块调度到CPU/GPU和NPU。

mllm-NPU系统设计概述

mllm-NPU是一个翻新的大型言语模型(LLM)推理系统,专为移动设施上的神经处置单元(NPU)优化。该系统的关键设计指标是缩小预填充(prefill)阶段的提前和能耗,同时坚持推理精度。mllm-NPU经过在算法和系统设计上的协同优化,有效地处置了LLM架构与现代NPU设计之间的语义差异。

mllm-NPU的上班流程包含预备阶段和口头阶段。在预备阶段,mllm-NPU经常使用增强的张量级量化算法将LLM量化为W8A8格局,并生成固定长度的分块共享图,以高效处置变长揭示。在口头阶段,mllm-NPU将接纳到的揭示宰割成固定大小的块,并依照因果相关处置这些块。这些块图会依据它们的数据格局被宰割成子图,并依据配件亲和性和精度敏理性在CPU/GPU和NPU之间启动调度。

三大翻新技术详解

1. 分块共享图

mllm-NPU经过引入分块共享图来应答灵活揭示长度的应战。这种方法基于对LLM操作符的两种分类:静态操作符和灵活操作符。静态操作符如线性层和层归一化,可以跨不同块共享;而灵活操作符如留意力机制,依赖于块长度和序列,不能共享。经过这种模式,mllm-NPU将LLM合成为多个子图,共享子图一次性构建和优化,非共享子图则针对不同块独自构建。这种方法清楚缩小了内存开支,并提高了可扩展性。

2. 影子离群值口头

为了在不就义LLM精度的前提下成功NPU友好的张量级激活量化,mllm-NPU驳回了影子离群值口头技术。该技术在运转时将具备离群值的激活通道提取到一个更紧凑的张量中,在CPU上口头,并将结果兼并回NPU上的原始操作符结果中。这种设计不只处置了离群值的疑问,还优化了内存经常使用,并缩小了CPU和NPU之间的同步开支。

3. 无序子图口头

mllm-NPU驳回无序子图口头战略来优化口头效率。经过在块和子图级别启动分区后,LLM子图可以不按块序列顺序口头。这种战略清楚扩展了调度空间,最小化了由于CPU/GPU浮点操作惹起的口头泡沫。mllm-NPU应用在线启示式算法,在保障正确性的前提下,灵活选用口头顺序,从而最大化NPU的应用率并最小化CPU/GPU的上班负载影响。

成功与评价

1. 成功

mllm-NPU的成功触及多个关键技术,包含分块共享图、阴影意外口头和乱序子图口头。这些技术独特优化了移动NPU的加载效率,清楚提高了预填充速度和能效。

2. 评价

mllm-NPU的功能经过与多个基线系统的比拟获取验证。试验结果显示,无论是在预填充速度、能耗还是端到端推理提后方面,mllm-NPU都清楚优于现有技术。

功能剖析

mllm-NPU的功能长处关键源于其翻新的设计和优化战略。经过在移动NPU上最大化整数运算的口头,同时在CPU/GPU上处置必要的浮点运算,mllm-NPU不只提高了口头速度,还降落了能耗。

总之,mllm-NPU经过一系列翻新技术,清楚提高了移动设施上大型言语模型的推感功能,为成功高效、低能耗的移动设施端LLM推理提供了有效处置打算。

准确性与内存消耗

1. 准确性坚持

mllm-NPU系统在成功高效的NPU卸载的同时,坚持了较高的准确性。与FP16相比,准确性损失不到1%,这在实践运行中是可接受的。这得益于其翻新的技术,如影子离群值口头(shadow outlier execution),它准许在CPU上以浮点精度处置离群值,从而坚持了高准确性。此外,mllm-NPU与其余基线模型相比,在坚持准确性的同时,清楚提高了口头效率。

2. 内存消耗

虽然mllm-NPU引入了一些额外的内存开支,例如为离群值口头加载的浮点权重,但这些开支相对较小,仅占总内存的0.6%至1%。此外,经过共享图(chunk-sharing graph)技术,mllm-NPU清楚缩小了内存需求,由于它准许在不同的口头块之间共享静态操作符。这种方法不只缩小了内存占用,还提高了内存经常使用的效率。

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender