RAG新范式MemLong 用于长文本生成的记忆增强检索

koi

2024-11-15 00:04:30发布
关注私信

560 132 493

传统的留意力机制因为期间和空间复杂度的二次方增长，以及在生成环节中键值缓存的内存消耗始终参与，限度了模型处置长文本的才干。关系的处置打算包含缩小计算复杂度、改良记忆选用和引入检索增强言语建模。

检索增强生成（RAG）和MemLong的记忆检索流程。(a) 当检索到的消息长度超越模型的处置才干时，RAG甚至或者会降落生成功能（黄色）(b) MemLong应用外部检索器来失掉历史消息，而后将这些消息以键值对（K-V）的方式而不是文本方式传递给模型。

提出一种新打算MemLong，联合一个非可微分的检索-记忆模块和一个部分可训练的解码器言语模型，来增强长文本高低文的言语建模才干。

MemLong应用外部检索器来检索历史消息，并经过细粒度、可控的检索留意力机制，将语义级别的关系消息块整合到模型中。这种方法不只提高了模型处置长文本的才干，还坚持了消息散布的分歧性，防止了训练环节中的散布偏移疑问。

MemLong的一个示例：在底层，模型坚持静态，对整个数据块Ci启动因果言语建模，随后，Ci被缓存为嵌入和键值对（K-V）方式。最后，下层启动微调，以协调检索偏好并整合检索到的内容。

MemLong的**原理包含以下几个方面：

检索因果留意力的说明。部分因果留意力运行于最近的高低文，而经过检索方法取得的块级键值对（K-V）准许双向留意力，因为它们的历史性质，不会造成消息暴露。

经过这些原理，MemLong在多个长文本高低白话语建模基准测试中体现杰出，证实了其在处置长文本方面的有效性和优越性。MemLong可以将单个3090 GPU上的高低文长度从4k裁减到80k。

不同高低文窗口裁减模型在PG19、Proof-pile、BookCorpus、Wikitext-103上的滑动窗口困惑度。一切试验均在一块3090 24GB GPU上启动。LongLLaMA-3B和MemLong-3B带有∗标志的示意在没有内存的状况下启动评价，而带有†标志的LongLLaMA-3B示意在有限内存的状况下启动评价。还评价了MemLong在4K/32K内存场景下的体现。"- / 6.95"示意模型在单个GPU上造成内存无余（OOM）失误，而在双GPU上则发生了相应的结果。

https:https:MemLong: MemoryAugmented Retrieval  Long  Modeling

本文转载自 PaperAgent

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#大模型 #日日新 #ChatGPT #MemLong #文心一言 #AIGC #Agent #混元 #孟子 #RAG #AI #GPT #LaMDA #Sora #Bard #言犀 #盘古 #云雀 #清言 #通义千问 #4 #悟道 #Copilot #检索 #紫东太初 #AIGC运行 #OpenAI #人工自动 #多模态 #开源大模型