背景
检索增强生成(RAG)迅速推动了言语模型畛域,特意是在问答(QA)系统。经过在照应生成阶段集成外部文档,RAG清楚提高了言语模型的准确性和牢靠性。这种方法提高了照应的品质,并降低了幻觉的频率,其中模型生成了失误或误导性的消息。但是,这些方法体现出有限的检索精度时,面对泛滥的难以区分的文件,在其实践运行中提出了显着的应战。为了应答这些新产生的应战,本文提出HiQA,一个先进的多文档问答(MDQA)框架,集成级联元数据到内容和多路由检索机制。
简介
大型言语模型 (LLMs) 在多个畛域,包括文档问答 (QA) 失掉了宽泛运行。但是,经常使用 LLMs 启动 QA 仍面临诸如幻觉疑问、及时性疑问和预训练无余的应战。检索扩增生成(RAG)是一种有前景的处置打算。个别的基于 RAG 的 QA 系统将文档示意为非结构化文本块,但在处置少量、内容相似或复杂的文档时,这种方法遇到了限度。多文档问答提出了更大的应战,由于它须要思考文档间的相关和差异。咱们将此疑问确定为“无法区分的多文档中的RAG升级”。
多文档QA场景中性能降低的试验验证。经常使用88个文档启动测试,每个文档蕴含88个疑问中的一个。经常使用个别RAG和GPT-4设置(块大小=,top-k=5)。查问单个文档上的每个疑问时,只要一个失误答案。但是,一同查问一切88个文档会造成30个失误答案,这标明随着文档数量的参与,性能会清楚降低。结果如下图所示:
数据扩大被视为可以改良照应的潜在处置打算,可增强原始文件以改善照应,如下图所示:
咱们的直观想法是,在文档QA中经常使用RAG的关键是婚配常识的“关键块”来回答文档中的查问(Q)。这相似于射箭,其中查问充任箭头,咱们须要确保关键常识在指标区域内。因此,经过将“定义”文本兼并到块中,咱们可以调整它们的散布,使查问嵌入更容易击中关键块。
PDFTriage 经过提取文档的结构元素并将其转换为可检索的元数据,处置了却构化文档的多文档QA义务。PDFTriage 对元数据的经常使用可以被形容为一种硬分区技术。这种战略相当于在消息检索之前对子集启动剪枝和选用。这样的措施被实施以经过减小段的大小来改良检索精度。但是,在触及复杂义务(如跨文档搜查)的场景中,在硬分区方法中,有用的常识有或许在检索之前失落。
为了处置这一应战,咱们提出了HiQA(分层高低文增强RAG多文档QA),联合一种新的文档解析和转换方法。这种方法包括一个基于元数据的增强战略,以增强块的可扩大性,以及一个复杂的多路由检索机制。专门为多文档环境量身定制,咱们的方法旨在提高常识检索的精度和相关性,克制传统的基于向量的检索系统的固有局限性。这种增强清楚提高了基于RAG的系统在治理多文档问答(MDQA)的复杂需求方面的性能。咱们的方法框架如下图所示:
最后,每个文档经过Markdown格局化器的处置,依据其固有的章节结构将其转换为[章节元数据:章节内容]对(称为片段),而后以Markdown格局存储。随后,咱们提取片段的档次结构,并将元数据级联到每个章节中,以构建咱们的数据库。最后,咱们经常使用多门路检索方法来增强RAG。由于档次增强先于检索,因此它提供了一种可扩大的处置打算,可以无缝集成各种嵌入或检索方法。
方法
咱们提出的HiQA系统由三个组件组成:Markdown格局化器(MF),分层高低文增强器(HCA)和多门路检索器(MRR)。MF模块处置源文档把它转换成一个markdown文件,一个片段序列。不是将文档分红固定大小的块,而是每个片段对应于一团体造的章节,包括章节元数据和内容。HCA模块从markdown中提取分层元数据并将其组合,构成级联元数据,从而增强每个片段的消息。MRR模块驳回多门路检索方法来找到最适合的片段,而后将其作为高低文输入提供应言语模型。
Markdown格局化器
由于咱们提出的方法须要失掉档次结构消息,因此源文档必定经过结构解析。因此,Markdown因其杰出的结构化文档格局化配置而被选中。因此,咱们引入了Markdown格局转换器,将源文档转换为富含结构化元数据的Markdown文档。
Markdown Formatter经常使用LLM启动文档解析。经常使用LLM的选择是由其经过应用历史消息处置跨页面连接高低文的才干以及其语义了解和标点符号经常使用的才干驱动的。这些配置可以成功准确的章节宰割和有效的表格数据复原,充沛应用LLM的初级语义了解配置。
当进入长高低文时,存在精度损失、忘记、指令弱化、幻觉等疑问。为了确保输入内容的结构连接、准确并与原始文档分歧,咱们驳回了滑动窗口技术,窗口大小为W,步长为W,附加填充为K。
为了失掉高品质的文档处置结果,经常使用指令启动生成markdown**现实 如下:
分层高低文增强器(Hierarchical Contextual Augmentor, HCA)
经常使用级联文档结构在数据处置环节中启动文本增强,从Markdown文件中提取档次结构元数据,并将其级联到每个章节,构成增强的段落。详细步骤包括:
多门路检索器(Multi-Route Retriever, MRR)
咱们提出了咱们的多门路检索方法的QA义务,集成了各种技术,以提高精度的常识检索宽泛的文档语料库。详细来说,咱们经常使用以下三种方法成功了检索:
为了处置这个疑问,咱们引入了一个新的工具——称为Lucene索引。这个工具更多地关注每个词语(或许叫令牌)在文档中产生的频率,而不是单纯的计算全体相似度。这样就可以更有效地域分那些在大局部内容都很相似,但在某些细节上有所不同的文档。
除此之外,咱们还经常使用了其余的战略来优化检索的准确性,比如应用命名实体识别和人类专家设置的关键词来给相关的局部赋予更大的权重。这象征着,假设搜查“iPhone15”这个关键词,那么一切蕴含“iPhone15”的局部会被以为更关键,因此在检索结果中的排名会更高。
验证成果
论断
咱们引见了HiQA,一种新的框架,专门设计用于处置现有的RAG在多文档问答(MDQA)环境中的局限性,特意是在处置无法区分的多文档时。HiQA驳回了软分区战略,该战略应用文档的结构性元数据启动有效的块拆分和嵌入增强,并驳回多门路检索机制来增强检索效率。咱们宽泛的试验验证了咱们的方法的鲁棒性和有效性,有助于更深化地理解嵌入空间内的文档段散布的通常。
原文链接: