优化20倍！DeepMind颁布ReadAgent框架有效高低文

基于Transformer的大言语模型（LLM）具备很强的言语了解才干，但LLM一次性能够读取的文本量依然遭到极大限度。

除了高低文窗口较小外，LLM的性能会随着输入内容长度的参与而降低，即使输入内容未超越模型的高低文窗口长度限度也是如此。

相比之下，人类却可以阅读、了解和推理很长的文本。

LLM和人类在阅读长度上存在差异的重要要素在于阅读方法：LLM逐字地输入准确的内容，并且该环节相对主动；但过于准确的消息往往会被忘记，而阅读环节更器重了解含糊的要点消息，即不思考准确单词的内容能记忆更长期间。

人类阅读也是一个互动的环节，比如回答疑问时还须要从原文中启动检索。

为了处置这些限度，来自Google DeepMind和Google Research的钻研人员提出了一个全新的LLM系统ReadAgent，受人类如何交互式阅读长文档的启示，将有效高低文长度参与了20倍。

论文链接：

受人类交互式阅读长文档的启示，钻研人员将ReadAgent成功为一个便捷的提示系统，经常使用LLMs的初级言语配置：

1. 选择将哪些内容存储在记忆片段（memory episode）中；

2. 将记忆片段紧缩成称为要点记忆的冗长片段记忆，

3. 假设ReadAgent须要提示自己成功义务的关系细节，则采取执行（action）来查找原始文本中的段落。

在试验评价中，相比检索、原始长高低文、要点记忆（gist memories）方法，ReadAgent在三个长文档阅读了解义务（QuALITY，NarrativeQA和QMSum）上的性能体现都优于基线，同时将有效高低文窗口裁减了3-20倍。

ReadAgent框架

1. 要点记忆（gist memory）

要点记忆是原始长高低文中文本块的短要点的有序汇合，构建gist记忆有两个步骤：分页（pagination）和记忆提要（memory gisting）。

片段分页（episode pagination）

当ReadAgent阅读长文本时，经过选择暂停阅读的位置来选择在记忆片段中存储哪些内容。

每一步都会为LLM提供局部文本，从上一个暂停点开局，并在到达最大单词数限度时完结；提示LLM选择段落之间的哪个点将是人造的暂停点，而后将前一个和暂停点之间的内容视为一个episode，也可以叫做页（page）。

记忆提要（memory gisting）

关于每一页，提示LLM将确切的内容缩短为要点或摘要。

2. 并行和顺序交互查找

因为要点记忆与页关系，所以只有提示LLM来找出哪一页更像是答案，并在给定特定义务的状况下再次阅读，重要有两种查找战略：同时并行查找一切页面（ReadAgent-P）和每次查找一个页面（ReadAgent-S）。

ReadAgent-P

比如说，在问答义务中，理论会给LLM输入一个可以查找的最大页数，但也会批示其经常使用尽或许少的页面，以防止不用要的计算开支和搅扰消息（distracting information）。

ReadAgent-S

顺序查找战略中，模型一次性恳求一页，在选择倒退（expand）哪个页面之前，先检查之前倒退过的页面，从而使模型能够访问比并行查找更多的消息，预期在某些不凡状况下体现得更好。

但与模型的交互次数越多，其计算老本也越高。

3. 计算开支和可裁减性

片段分页、记忆提要和交互式查找须要迭代推理，也存在潜在的计算开支，但详细开支由一个小因子线性解放，使得该方法的计算开支不会输入长度的参与而猛烈优化。

因为查找和照应大多是条件要点（conditioned gists）而非全文，所以在同一高低文中的义务越多，老本也就越低。

4. ReadAgent变体

当经常使用长文本时，用户或许会提早知道要处置的义务：在这种状况下，提要步骤可以在提示中包括义务形容，使得LLM可以更好地紧缩与义务有关的消息，从而提高效率并缩小搅扰消息，即条件ReadAgent

更通用的义务设置下，在预备提要时或许不知道详细义务，或许或许知道提出的要点须要用于多个不同的义务，例如回答关于文本的疑问等。

因此，经过扫除注册步骤中的义务，LLM可以发生更宽泛有用的提要，代价是缩小紧缩和参与搅扰留意力的消息，即非条件ReadAgent。

这篇论文中只讨论了无条件设置，但在某些状况下，条件设置或许更有长处。

迭代提要（iterative gisting）

关于一段很长的事情历史，例如对话等，可以思考经过迭代提要来进一步紧缩旧记忆来成功更长的高低文，对应于人类的话，旧记忆更含糊。

试验结果

钻研人员评价了ReadAgent在三个长高低文问容许战中的长文档阅读了解才干：QuALITY、NarrativeQA和QMSum。

只管ReadAgent不须要训练，但钻研人员依然选择在训练集上开发了一个模型并在验证、测试和/或开发集上启动了测试，以防止过拟合系统超参数的危险。

选择的模型为指令微调后的PaLM 2-L模型。

评价目的为紧缩率（compression rate, CR），计算方法如下：

LLM评分器

NarrativeQA和QMSum都有一个或多个自在方式的参考回复，理论经常使用诸如ROUGE-F之类的语法婚配度量来评价。

除此之外，钻研人员经常使用智能LLM评分器来评价这些数据集，作为人工评价的代替方法。

下面两个提示中，「严厉LLM评分器提示」用于判别能否存在准确婚配，「容许LLM评分器提示」用于判别能否存在准确婚配或局部婚配。

基于此，钻研人员提出了两个评价目的：LLM-Rating-1（LR-1）是一个严厉的评价分数，计算一切示例中准确婚配的百分比；LLM-Rating-2（LR-2）计算准确婚配和局部婚配的百分比。

长高低文阅读了解

试验结果显示，ReadAgent（查找1-5页）成功了最好的结果，紧缩率为66.97%（即提要后高低文窗口中可以容纳3倍的token）。

当参与准许查找的最大页数（最多5页）时，性能会始终提高；在6页时，性能开局略有降低，即6页高低文或许会参与搅扰消息。

NarrativeQA

在三个阅读了解数据集中，NarrativeQA的平均高低文长度最长，为了将gists放入高低文窗口，须要裁减页面的尺寸大小。

提要对Gutenburg文本（书籍）的紧缩率为96.80%，对电影剧本的紧缩率为91.98%

QMSum由各种主题的会议记载以及关系疑问或说明组成，长度从1,000字到26,300字不等，平均长度约为10,000字，其答案是自在方式的文本，规范的评价目的是ROUGE-F

可以看到性能随着紧缩率的降低而提高，因此查找更多页面的技术往往比查找更少页面的技术做得更好。

还可以看到ReadAgentS大大优于ReadAgent-P（以及一切基线），性能改良的代价是检索阶段的恳求数量参与了六倍。

原文链接:

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Copilot #悟道 #多模态 #AIGC #日日新 #大模型 #孟子 #清言 #开源大模型 #通义千问 #文心一言 #DeepMind框架 #AIGC运行 #Agent #LaMDA #紫东太初 #人工智能 #混元 #言犀 #ChatGPT #GPT #4 #Bard #OpenAI #云雀 #AI #Sora #盘古

优化20倍！DeepMind颁布ReadAgent框架 有效高低文

ReadAgent框架

试验结果

优化20倍！DeepMind颁布ReadAgent框架有效高低文