作者 | Florian June
编译 | 岳扬
RAG 方法或者会面临两大应战:
为了处置上述疑问,LLM 的提醒词紧缩技术(Prompt compression)应运而生。从实质上讲,其目的是精炼提醒词中的关键消息,使得每个输入的词元(input tokens)都承载更多价值,从而优化模型效率并还能控制老本。这一理念在图 1 的右下角启动了直观展现。
图 1:RAG 架构中的提醒词紧缩技术(见图右下角)。如紫色虚线标志的局部所示,某些紧缩方法能够间接作用于已检索的上下文消息。此图由作者绘制。
如图 1 中紫色虚线标志的局部所示,局部紧缩方法可以间接运行于从大言语模型中检索出的上下文消息。
总的来说,提醒词紧缩方法可以分为四大类:
鉴于第四类方法最后是为了像 ViT 或 BERT 这样的较小模型而提出的,本文将重点引见前三类方法中代表性算法的原理。
01 Selective Context
1.1 作者的领悟见地
图 2 标明,大言语模型(LLM)即使在缺乏完整上下文或对话历史的状况下,也能对用户的征询做出回应。即使某些相关细节被省略,大言语模型(LLM)照旧能给出用户希冀的回答。这或者是由于大言语模型(LLM)能够从上下文消息和预训练阶段积攒的常识中推断出缺失的消息。
由此看来,咱们可以经过挑选掉非关键消息来优化上下文长度(context length),而不会影响其全体性能。这就是 Selective Context 方法的关键所在。
Selective Context 战略驳回小型言语模型(SLM),来计算给定上下文中各个词汇单元(比如句子、短语或词语)的自消息值。而后,基于这些自消息值(self-information)进一步评价各单元的消息含量。经过仅保管自消息值较高的内容,Selective Context 为大言语模型(LLM)提供了更为繁复、高效的 context representation (译者注:经过数学化或模型化文本或对话后的机器可处置的上下文消息)。这一做法不会对其在各种义务中的表现形成负面影响。
1.2 Self-Information 自消息
Selective Context 运用自消息(self-information)来权衡内容的价值。
自消息,又称为惊喜度(surprisal)或消息含量(information content),是消息通常中的**概念之一。它用来量化某个事情所传达的消息量的大小。详细来说,它是 token 出现概率的负对数方式:
这里,