Transformer如今曾经成为大型言语模型(LLM)和其余序列处置运行程序的关键架构。但是,它们固有的二次方计算复杂性成为了将Transformer裁减至超长序列时的渺小阻碍,清楚参与了老本。这引发了人们对具备线性复杂性和恒定内存需求的架构的兴味。
Mila公司和Borealis AI的钻研人员从新扫视了递归神经网络(RNN)作为Transformer架构的潜在代替方案。他们在颁布的一篇论文中,引见了长短期记忆网络(LSTM)和门控循环单元(GRU)这两种盛行的RNN变体的最小化版本——minLSTM和minGRU,这两个模型在训练时期可以齐全并行,并且经常使用的参数清楚缩小,使它们成为Transformer的极速和有效的代替方案。
Transformer的局限性和RNN的振兴
每当Transformer模型接纳的输入序列长度翻倍时,就须要四倍的内存和计算量。这种二次方计算复杂性使得Transformer在处置长序列来说老本高昂,在资源受限的环境中尤为辣手。
另一方面,RNN按顺序处置输入数据,并且相关于序列长度具备线性计算复杂度。它们在推理环节中还须要恒定的内存,这使得它们适宜于十分长的序列。但是,传统的RNN存在梯度隐没和梯度爆炸的疑问。当用于更新神经网络权值的梯渡过小或过大,阻碍有效学习时,就会产生梯度隐没和梯度爆炸。从而严重影响学习效果。这一局限性制约了RNN学习常年依赖相关的才干。为了处置这一疑问,LSTM和GRU引入了翻新的门控机制,以准确调控消息在网络中的传递。
虽然传统的LSTM和GRU具备长处,但它们有一个关键的限度:只能按顺序计算。这象征着它们必定在训练时期经常使用时期反向流传(BPTT),这是一个缓慢的环节,极大地限度了它们裁减到长场景的才干。
Transformer的局限性从新惹起了人们对循环模型的兴味。在过去的一年,引入了新的循环架构,例如S4和Mamba,这些架构有望在成功可比功能的同时处置Transformers的可裁减性疑问。这些模型经常使用“并行前缀扫描”等算法,经过并行化输入序列上的计算来放慢训练速度。
从新扫视LSTM和GRU
遭到最近提出的序列模型之间算法相似性的启示,钻研人员从新扫视了LSTM和GRU。他们发现,经过从门控机制中消弭对先前暗藏形态的依赖,这些模型可以经常使用并行扫描算法启动高效训练。
传统的LSTM和GRU有多个门来控制网络中的消息流。这些门依赖于之前的暗藏形态来确定保管或摈弃多少输入和之前的内存。这创立了一个顺序依赖相关,要求模型一次性处置一个令牌。
图1 minGRU经过删除组件和计算简化了GRU
钻研人员发现,他们可以消弭对先前暗藏形态的依赖,同时坚持计算中的时期分歧性。这使得能够经过并行扫描算法训练模型。他们经过删除一些不用要的计算进一步简化了架构,生成了最小化的LSTM(minLSTM)和最小化的GRU(minGRU),这两种模型不只经常使用的参数大幅缩小,而且训练速度也获取了清楚优化。
minGRU和minLSTM经过成功并行计算处置了传统RNN的训练瓶颈。在T4 GPU上,与传统的序列长度为512个令牌相比,这一变动使得minGRU的速度提高了175倍,minLSTM的速度提高了235倍。随着序列的延伸,这种改善变得愈加清楚。关于长度为4096的序列,minGRU和minLSTM的速度比传统版本快1300倍以上。
图2 minLSTM经过删除不用要的组件和计算来简化LSTM
钻研人员写道:“因此,在minGRU须要一天的时期来成功固定次数的训练的状况下,传统的GRU或许须要3年以上的时期。”
与传统GRU相比,minGRU将所需参数的数量缩小了87%,与传统LSTM相比,minLSTM将所需参数的数量缩小了85%。
最小化RNN与SOTA循环模型
钻研人员将minLSTM和minGRU的功能与最先进的循环序列模型Mamba启动了比拟。他们测量了训练时期、内存经常使用状况和多项义务的体现,包括选用性复制、强化学习(RL)和言语建模。
在运转时期方面,minLSTM和minGRU取得了与Mamba相似的结果。虽然它们比传统的RNN经常使用更多的内存,但它们的内存效率依然比Mamba高。
图3 训练最小化 RNN 模型(橙色和蓝色实线)比传统 RNN(虚线)更快,并且比 Mamba经常使用更少的内存
在选用性复制(须要内容感知推理和记忆的义务)方面,minLSTM和minGRU的体现与Mamba相当。
在D4RL基准的RL试验中,minLSTM和minGRU的功能优于除Decision Mamba之外的一切基线,其中差异很小。
在言语建模义务中,minLSTM和minGRU在训练环节中到达峰值功能的速度略慢于Mamba,但最终收敛的损失更低。值得留意的是,它们比Transformer的效率高得多,Transformer须要2.5倍的时期才干到达最佳功能。
图4 在言语建模义务中,最小化的RNN(橙色和蓝色实线)的损失低于Mamba,收敛速度至少是Transformers的2.5倍
与其余钻研Transformer代替方案的相似上班一样,最小化RNN钻研的局限性之一是试验的规模。这些架构能否能够在十分大的模型和场景窗口下提供相似的结果还有待观察。
虽然如此,这项钻研的结果意义严重,由于钻研标明,随着新消息的产生,从新扫视原有的想法是值得的。
钻研人员在文章中写道:“鉴于这些简化的RNN在实践运行中所展现出的出色功能,并且它们与泛滥最新提出的循环序列方法存在着实质上的相似之处,咱们不由反思并提出不懂,‘咱们能否仅仅依托RNN就足以满足需求?’。”
原文题目: MinimizedRNNsofferafastandefficientalternativetoTransformers ,作者:Ben Dickson