嘿,大家好!这里是一个专一于AI自动体的频道!
最近,深度学习和人工自动畛域的大牛们在arXiv上宣布了一篇幽默的钻研,题目挺长的:《检索增强生成或长高低文大型言语模型?片面钻研和混合方法》。
当蠢才享一篇由Google DeepMind和密歇根大学的钻研人员颁布的一个长高低文和RAG混合的方法。
Retrieval Augmented Generation or Long-Context LLMs?AComprehensive Study and Hybrid Approach
检索增强生成(RAG)不时是大型言语模型(LLMs)高效解决超长文本的弱小工具。但是,像Gemini-1.5和GPT-4这样的最新LLM展现了间接了解长文本的出色才干。我们对RAG和长文本(LC)LLM启动了片面的比拟,旨在应用两者的好处。我们经常使用三种最新的LLM,在各种地下数据集上对RAG和LC启动基准测试。结果显示, 当资源短缺时,LC在平均功能上一直优于RAG。但是,RAG清楚较低的老本依然是一个清楚的好处 。基于这一观察,我们提出了Self-Route,这是一种便捷但有效的方法,依据模型的自我反思将查问路由到RAG或LC。 Self-Route清楚降落了计算老本,同时坚持了与LC相当的功能 。我们的钻研为经常使用RAG和LC的长文本运行提供了指点。
首先,让我们聊聊RAG。这种方法让LLM经过检索关系消息来生成回答,就像是给模型加了个外挂,让它能够访问海量消息,而且老本很低。但是,随着LLM的开展,像Gemini1.5和GPT-4这样的模型曾经能够间接了解超长文本了。这就引出了一个疑问: 我们能否还须要RAG?
钻研人员选择做个片面的比拟。他们用最新的三个LLM在不同的公共数据集上启动了基准测试。结果发现, 只需资源足够,LC在简直一切状况下都比RAG体现得更好。但是,RAG的老本好处依然清楚 。这就是说,只管LC无了解长文本上更胜一筹,但RAG在老本上更具吸引力。
基于这个疑问,钻研人员提出了一种新方法,叫做SELF-ROUTE。这种方法依据模型的自我评价来选择是经常使用RAG还是LC。SELF-ROUTE在坚持与LC相当的功能的同时,清楚降落了计算老本。例如,在Gemini-1.5-Pro上,老本降落了65%,在GPT-4上降落了39%。
钻研人员经过深化剖析了RAG与LC的预测差异,发现RAG和LC在很多状况下会给出相反的预测,无论是正确的还是失误的。理想上,关于 63% 的查问,模型预测是齐全相反的;关于 70% 的查问,分数差异小于 10(相对值)。幽默的是,相反的预测不必定正确,如代表平均分数的不同色彩所示,即(S_RAG + S_LC) / 2。这一观察结果标明,RAG 和 LC 不只偏差于做出相反的正确预测,而且偏差于做出相似的失误。
因此,我们可以在大少数查问中应用 RAG,为一小局部真正长于的查问保管计算老本更高的 LC。经过这样做,RAG 可以在不就义全体功能的状况下显着降落计算老本。
SELF-ROUTE也比拟便捷,其实就俩步骤:先是RAG加Route这一步,而后是长高低文预测那一步。前一步里,我们把查问和检索到的内容块儿给LLM,而后让它预测这查问能不能回答,假设能,就生成答案。这跟我们往罕用的RAG差不多,但有个主要的不同点: LLM如今有个选用权,假设感觉依据提供的内容回答不了疑问,它可以选用不回答,揭示词是“Write unanswerable if the query can not be answered based on the provided text”。
关于那些LLM感觉能回答的查问,我们就间接接受RAG的预测作为最终答案。关于那些LLM感觉回答不了的,我们就进入第二步,把完整的高低文消息给长高低文LLM,让它来得出最终预测,也就是LC。评测发现,只管RAG得分稳固低于LC,但是SELF-ROUTE可以用更少的tokens,取得凑近甚至更好的成果
本文转载自,作者: