基于Transformer的大言语模型(LLM)具备很强的言语了解才干,但LLM一次性能够读取的文本量依然遭到极大限度。
除了高低文窗口较小外,LLM的性能会随着输入内容长度的参与而降低,即使输入内容未超越模型的高低文窗口长度限度也是如此。
相比之下,人类却可以阅读、了解和推理很长的文本。
LLM和人类在阅读长度上存在差异的重要要素在于阅读方法:LLM逐字地输入准确的内容,并且该环节相对主动;但过于准确的消息往往会被忘记,而阅读环节更器重了解含糊的要点消息,即不思考准确单词的内容能记忆更长期间。
人类阅读也是一个互动的环节,比如回答疑问时还须要从原文中启动检索。
为了处置这些限度,来自Google DeepMind和Google Research的钻研人员提出了一个全新的LLM系统ReadAgent,受人类如何交互式阅读长文档的启示,将有效高低文长度参与了20倍。
论文链接:
受人类交互式阅读长文档的启示,钻研人员将ReadAgent成功为一个便捷的提示系统,经常使用LLMs的初级言语配置:
1. 选择将哪些内容存储在记忆片段(memory episode)中;
2. 将记忆片段紧缩成称为要点记忆的冗长片段记忆,
3. 假设ReadAgent须要提示自己成功义务的关系细节,则采取执行(action)来查找原始文本中的段落。
在试验评价中,相比检索、原始长高低文、要点记忆(gist memories)方法,ReadAgent在三个长文档阅读了解义务(QuALITY,NarrativeQA和QMSum)上的性能体现都优于基线,同时将有效高低文窗口裁减了3-20倍。
ReadAgent框架
1. 要点记忆(gist memory)
要点记忆是原始长高低文中文本块的短要点的有序汇合,构建gist记忆有两个步骤:分页(pagination)和记忆提要(memory gisting)。
片段分页(episode pagination)
当ReadAgent阅读长文本时,经过选择暂停阅读的位置来选择在记忆片段中存储哪些内容。
每一步都会为LLM提供局部文本,从上一个暂停点开局,并在到达最大单词数限度时完结;提示LLM选择段落之间的哪个点将是人造的暂停点,而后将前一个和暂停点之间的内容视为一个episode,也可以叫做页(page)。
记忆提要(memory gisting)
关于每一页,提示LLM将确切的内容缩短为要点或摘要。
2. 并行和顺序交互查找
因为要点记忆与页关系,所以只有提示LLM来找出哪一页更像是答案,并在给定特定义务的状况下再次阅读,重要有两种查找战略:同时并行查找一切页面(ReadAgent-P)和每次查找一个页面(ReadAgent-S)。
ReadAgent-P
比如说,在问答义务中,理论会给LLM输入一个可以查找的最大页数,但也会批示其经常使用尽或许少的页面,以防止不用要的计算开支和搅扰消息(distracting information)。
ReadAgent-S
顺序查找战略中,模型一次性恳求一页,在选择倒退(expand)哪个页面之前,先检查之前倒退过的页面,从而使模型能够访问比并行查找更多的消息,预期在某些不凡状况下体现得更好。
但与模型的交互次数越多,其计算老本也越高。
3. 计算开支和可裁减性
片段分页、记忆提要和交互式查找须要迭代推理,也存在潜在的计算开支,但详细开支由一个小因子线性解放,使得该方法的计算开支不会输入长度的参与而猛烈优化。
因为查找和照应大多是条件要点(conditioned gists)而非全文,所以在同一高低文中的义务越多,老本也就越低。
4. ReadAgent变体
当经常使用长文本时,用户或许会提早知道要处置的义务:在这种状况下,提要步骤可以在提示中包括义务形容,使得LLM可以更好地紧缩与义务有关的消息,从而提高效率并缩小搅扰消息,即条件ReadAgent
更通用的义务设置下,在预备提要时或许不知道详细义务,或许或许知道提出的要点须要用于多个不同的义务,例如回答关于文本的疑问等。
因此,经过扫除注册步骤中的义务,LLM可以发生更宽泛有用的提要,代价是缩小紧缩和参与搅扰留意力的消息,即非条件ReadAgent。
这篇论文中只讨论了无条件设置,但在某些状况下,条件设置或许更有长处。
迭代提要(iterative gisting)
关于一段很长的事情历史,例如对话等,可以思考经过迭代提要来进一步紧缩旧记忆来成功更长的高低文,对应于人类的话,旧记忆更含糊。
试验结果
钻研人员评价了ReadAgent在三个长高低文问容许战中的长文档阅读了解才干:QuALITY、NarrativeQA和QMSum。
只管ReadAgent不须要训练,但钻研人员依然选择在训练集上开发了一个模型并在验证、测试和/或开发集上启动了测试,以防止过拟合系统超参数的危险。
选择的模型为指令微调后的PaLM 2-L模型。
评价目的为紧缩率(compression rate, CR),计算方法如下:
LLM评分器
NarrativeQA和QMSum都有一个或多个自在方式的参考回复,理论经常使用诸如ROUGE-F之类的语法婚配度量来评价。
除此之外,钻研人员经常使用智能LLM评分器来评价这些数据集,作为人工评价的代替方法。
下面两个提示中,「严厉LLM评分器提示」用于判别能否存在准确婚配,「容许LLM评分器提示」用于判别能否存在准确婚配或局部婚配。
基于此,钻研人员提出了两个评价目的:LLM-Rating-1(LR-1)是一个严厉的评价分数,计算一切示例中准确婚配的百分比;LLM-Rating-2(LR-2)计算准确婚配和局部婚配的百分比。
长高低文阅读了解
试验结果显示,ReadAgent(查找1-5页)成功了最好的结果,紧缩率为66.97%(即提要后高低文窗口中可以容纳3倍的token)。
当参与准许查找的最大页数(最多5页)时,性能会始终提高;在6页时,性能开局略有降低,即6页高低文或许会参与搅扰消息。
NarrativeQA
在三个阅读了解数据集中,NarrativeQA的平均高低文长度最长,为了将gists放入高低文窗口,须要裁减页面的尺寸大小。
提要对Gutenburg文本(书籍)的紧缩率为96.80%,对电影剧本的紧缩率为91.98%
QMSum由各种主题的会议记载以及关系疑问或说明组成,长度从1,000字到26,300字不等,平均长度约为10,000字,其答案是自在方式的文本,规范的评价目的是ROUGE-F
可以看到性能随着紧缩率的降低而提高,因此查找更多页面的技术往往比查找更少页面的技术做得更好。
还可以看到ReadAgentS大大优于ReadAgent-P(以及一切基线),性能改良的代价是检索阶段的恳求数量参与了六倍。
原文链接: