一、论断写在前面
论文题目:In Defense of RAG in the Era of Long-Context Language Models
论文链接:
克制早期生成式大型言语模型(LLMs)的有限高低文限度,检索增强生成(RAG)在过去不时是基于高低文的答案生成的牢靠处置打算。最近,长高低文LLMs的产生使得模型能够整合更长的文本序列,使得RAG变得不那么吸引人。最近的钻研标明,长高低文LLMs在长高低文运行中清楚优于RAG。与现有偏差于长高低文LLM而非RAG的上班不同,论文以为LLMs中的极长高低文会造成对关系消息的留意力削弱,并或者造成答案品质的潜在降低。
论文从新扫视了RAG在长高低文回答活成中的有效性。论文观察到,在LLM的高低文中,检索到的块的顺序对回答品质至关关键。与传统RAG将检索到的块按关系性降序陈列不同,论文提出在原始文本中保管检索到的块的顺序。论文的试验标明,所提出的顺序保管机制清楚提高了RAG的回答品质。
与此同时,经常使用提出的保序RAG,随着检索块数量的参与,答案品质后来回升而后降低。这是由于,随着检索块的增多,模型能够访问到更多潜在关系的消息,从而提高了检索到生成高品质答案所需正确高低文的时机。但是,随着检索块的增多,引入不关系或搅扰消息的或者性也参与。这些多余的消息或者会蛊惑模型,造成答案品质降低。因此,掂量在于经过检索更多高低文来提高召回率与经过限度搅扰来坚持准确度之间。最佳点在于关系与不关系消息的平衡最大化答案品质。超越这一点,引入过多不关系消息会降低模型功能。这解释了将整个长高低文作为LLM输入的方法功能较差的要素。
与Li等人(2024)的论断不同,经过提出的保序机制,RAG相比仅依赖长高低文LLM的同类方法,成功了更高的答案品质。如图4a所示,在∞Bench的En.QA数据集上,仅经常使用16K检索token,论文经常使用Llama3.1-70B到达了44.43 F1分数。相比之下,不经常使用RAG,Llama3.1-70B充沛应用128K高低文仅到达34.32 F1分数,GPT-40仅到达32.36 F1分数,Gemini-1.5-Pro在Li等人(2024)的评价下仅取得43.08 F1分数。也就是说,RAG即使在输入长度清楚缩小的状况下,也能成功更高的 F1分数。
二、论文的便捷引见
2.1 论文的背景
由于早期LLM的高低文窗口长度有限(例如,4096),检索增强生成(RAG)是处置大规模高低文语料库无法或缺的选用。由于答案品质在很大水平上依赖于检索模型的功能,因此在设计RAG系统时,少量的致力都投入到提高检索的召回率/准确度上。
最近,最先进的LLMs允许更长的高低文窗口。例如,GPT-40,Claudi-3.5,Llama3.1、Phi-3和Mistral-Large2都允许128K高低文。Gemini-1.5-pro甚至允许1M高低文窗口。长高低文LLM的近期涌现人造引发了一个疑问:在长高低文LLM的时代,RAG能否依然必要?Li et al.(2024)最近系统地比拟了RAG与长高低文(LC)LLM(不经常使用RAG),并证实LC(long-context) LLM在回答品质方面一直优于RAG。
图1:提出的顺序保管检索增强生成(OP-RAG)与经常使用长高低文LLM但不经常使用RAG的方法在coBench的En.QA数据集上的比拟。论文的OP-RAG经常使用Llama3.1-70B作为生成器,清楚优于不经常使用RAG的Llama3.1-70B。
图 2 :个别RAG与提出的顺序保管RAG的对比。如图所示,文档被宰割成13个片段 。每个片段附有一个相似度分数。论文检索相似度分数最高的4个片段。个别RAG按分数降序陈列片段,而提出的顺序保管RAG则依据片段在原始文档中的顺序陈列。
2.2 顺序保管RAG
论文用 d 示意长文本高低文,例如一个长文档。论文将 d 顺序且平均地宰割成 N个片段 c_i。索引 i 示意片段 c_i在 d 中的顺序。即, c_i-1示意 c_i之前的片段,而 c_i+1示意 c_i之后的片段。给定一个查问 q ,论文经过计算 q 的嵌入与 c_i的嵌入之间的余弦相似度来取得片段 c_i的关系性分数:
其中 cos(., .) 示意余弦相似度函数,emb(.) 示意嵌入函数。
图3:高低文长度对RAG功能的影响。评价在coBench的En.QA和EN.MC数据集上启动。
论文检索与最高余弦相似度 d 对应的top-k个片段J这些片段在原始长高低文中的顺序,即论文解放
图2展现了vanilla RAG与提出的顺序保管RAG之间的差异。与vanilla RAG按相似度降序陈列片段不同,提出的顺序保管RAG坚持了片段在原始文档中的顺序。
2.3.1 数据集
论文在∞Bench基准测试的En.QA和EN.MC数据集上启动试验,这些数据集专门设计用于长高低文问答评价。详细来说,En.QA蕴含351团体工标注的问答对。平均而言,En.QA中的长高低文蕴含150,374个单词。论文经常使用F1-score作为En.QA的评价目的。EN.MC蕴含224个问答对,其标注模式与En.QA相似,但每个疑问提供四个答案选项。平均而言,EN.MC中的长高低文蕴含142,622个单词。论文经常使用准确率作为EN.MC的评价目的。论文留意到还有一个名为LongBench的基准测试。但是,LongBench的平均高低文长度低于20K个单词,无余以评价允许128K-token窗口大小的最新长高低文LLMs。
2.3.2 成功细节
论文在一切数据集上将片段大小设置为128个token。片段之间不堆叠。论文自动经常使用BGE-large-en-v1.5来提取查问和片段的嵌入。
2.3.3 消融试验
论文评价了高低文长度对提出的保序RAG功能的影响。由于每个块蕴含128个token,高低文长度为128 m,其中m是作为生成答案高低文检索块的数量。如图3所示,随着高低文长度的参与,功能最后有所优化。这是由于更多的高低文或者更无时机笼罩关系块。但是,随着高低文长度进一步参与,答案品质降低,由于经常使用了更多不关系的块作为搅扰。
详细来说,Llama3.1-8B模型在EN.QA数据集和EN.MC数据集上的功能峰值出如今高低文长度为16K时,而Llama3.1-70B模型在EN.QA上的最佳功能出如今48K,在EN.MC上为32K。Llama3.1-70B的峰值点晚于Llama3.1-8B模型,这或者是由于更大规模的模型具备更强的才干来辨别有关的搅扰。
图 4:提出的顺序保管RAG与个别RAG的比拟。评价在coBench的En.QA和EN.MC数据集上启动,经常使用Llama3.1-70B模型
顺序保管RAG与个别RAG的比拟。如图4 所示,当检索的块数较少时(例如,8),提出的顺序保管RAG相关于个别RAG的长处并不清楚。同样,当检索的块数较多时,论文的顺序保管RAG清楚优于个别RAG。详细来说,在EN.QA数据集上,当检索的块数为128时,个别RAG仅到达38.40 F1分数,而论文的顺序保管RAG到达44.43 F1分数。在EN.MC数据集上,检索192个块时,个别RAG仅到达81.22的准确率,而论文的顺序保管RAG到达88.65的准确率。
2.3.4 关键结果
论文将提出的顺序保管RAG与两类基线启动比拟。第一类方法经常使用不带RAG的长高低文LLM。如表1所示,没有RAG时,LLM须要输入少量的token,这既低效又低廉。
相比之下,提出的顺序保管RAG不只清楚缩小了token数量,还清楚提高了答案品质。例如,经常使用Llama3.1-70B模型,没有RAG的方法在EN.QA上仅到达34.26的F1分数,平均输入117K个token。
相比之下,论文的OP-RAG在输入48K个token时到达47.25的F1分数。第二类基线驳回SELF-ROUTE机制(Li et al., 2024),该机制依据模型自我反思将查问路由到RAG或长高低文LLM。如表1所示,论文的方法清楚优于在LLMs输入中经常使用少得多的token。
表1:不带RAG的长高低文LLM、SELF-ROUTE机制(Li et al., 2024)与提出的顺序保管(OP)RAG的比拟。
本文转载自,作者: