传统的留意力机制因为期间和空间复杂度的二次方增长,以及在生成环节中键值缓存的内存消耗始终参与,限度了模型处置长文本的才干。关系的处置打算包含缩小计算复杂度、改良记忆选用和引入检索增强言语建模。
检索增强生成(RAG)和MemLong的记忆检索流程。(a) 当检索到的消息长度超越模型的处置才干时,RAG甚至或者会降落生成功能(黄色)(b) MemLong应用外部检索器来失掉历史消息,而后将这些消息以键值对(K-V)的方式而不是文本方式传递给模型。
提出一种新打算MemLong,联合一个非可微分的检索-记忆模块和一个部分可训练的解码器言语模型,来增强长文本高低文的言语建模才干。
MemLong应用外部检索器来检索历史消息,并经过细粒度、可控的检索留意力机制,将语义级别的关系消息块整合到模型中。这种方法不只提高了模型处置长文本的才干,还坚持了消息散布的分歧性,防止了训练环节中的散布偏移疑问。
MemLong的一个示例:在底层,模型坚持静态,对整个数据块Ci启动因果言语建模,随后,Ci被缓存为嵌入和键值对(K-V)方式。最后,下层启动微调,以协调检索偏好并整合检索到的内容。
MemLong的**原理包含以下几个方面:
检索因果留意力的说明。部分因果留意力运行于最近的高低文,而经过检索方法取得的块级键值对(K-V)准许双向留意力,因为它们的历史性质,不会造成消息暴露。
经过这些原理,MemLong在多个长文本高低白话语建模基准测试中体现杰出,证实了其在处置长文本方面的有效性和优越性。MemLong可以将单个3090 GPU上的高低文长度从4k裁减到80k。
不同高低文窗口裁减模型在PG19、Proof-pile、BookCorpus、Wikitext-103上的滑动窗口困惑度。一切试验均在一块3090 24GB GPU上启动。LongLLaMA-3B和MemLong-3B带有∗标志的示意在没有内存的状况下启动评价,而带有†标志的LongLLaMA-3B示意在有限内存的状况下启动评价。还评价了MemLong在4K/32K内存场景下的体现。"- / 6.95"示意模型在单个GPU上造成内存无余(OOM)失误,而在双GPU上则发生了相应的结果。
https:https:MemLong: MemoryAugmented Retrieval Long Modeling
本文转载自 PaperAgent