楔子
RAG(Retrieval-Augmented Generation) , 检索增强生成,即从外部数据库失掉额外信息辅佐模型生成内容。楼主以为这项技术关于没有才干/估算启动大模型训练和微调的大C和小B用户来说,兼具了适用性和灵敏性,是更有可操作性的处置打算。
假设你是一个AI小白,我来打一个比如:
你读齐全日制高中的课程(暂不思考文理分科),咱可以说你曾经成功了 预训练(Pre-training) ,曾经具有了一个通用大模型的基础才干。而后你填报了计算机迷信专业,成功四年的专业课学习,咱可以说你曾经成功了一轮 微调(Fine-Tuning) ,而后你就是一个合格的可以解答各类基础计算机关系的疑问的大模型了。但毕竟本科四年学习周期有点长,咱想一个速成点的方法就是以你高中把握的常识,再加下身边放一堆计算机专业的书籍,那这样你有了开卷考的buff加持,也勉强可以成为一个低配版解答基础计算机关系的疑问的大模型了,而你收到疑问,基于你高中的常识,在专业书籍中找到答案,组织后反应给提问者的环节就是 检索增强生成(RAG) 。有了这个比喻,你就可以比拟直观地理解,RAG的方式老本小,不须要花4年拿个相应专业的文凭就可以上岗;而且RAG的方式比拟灵敏,身边放《Python 21天从入门到知晓》你就是信息产业问答模型,身边放《母猪的产后护理》你就是畜物业问答模型。但是由于并不是半路还俗,关于专业信息的了解消化才干有限,给出的答案品质会略为逊色;而且毕竟每次都要去翻书找答案,回答的效率也必需会低于微调过的模型。在这样的状况下,如何摆放这些参考书籍,收到疑问后按什么顺序去寻觅答案就会影响到前往答案效率和品质。
概念引见完了,楼主最近在阅读RAG关系的文章,这些文章大抵上可以分为引见概念、优化效率,评价成果这三类,贴一些和同好们共享。
1.《A Survey on Retrieval-Augmented Text Generation for Large Language Models》
简介
Retrieval-Augmented Generation (RAG) 结合了检索方法和深度学习的提高,经过灵活整合最新的外部信息,处置了大型言语模型(LLMs)的静态局限性。这种关键关注文本畛域的方法提供了一种老本效益的处置打算,用于生成LLMs或许发生的看似正当但失误的回应,经过经常使用实在环球的数据,提高了它们输入的准确性和牢靠性。随着RAG在复杂性上的增长,并融合了多个或许影响其性能的概念,本文将RAG范式组织成四个类别:预检索、检索、检索后和生成,从检索视角提供了详细的观念。它概述了RAG的演化,并经过剖析关键钻研讨论了该畛域的停顿。此外,本文引入了RAG的评价方法,处置了所面临的应战,并提出了未来钻研的方向。经过提供一个有组织的框架和分类,本钻研旨在整合关于RAG的现有钻研,说明其技术基础,并强调其扩展LLMs的顺应性和运行的后劲。
译文地址
吕阿华:《A Survey on Retrieval-Augmented Text Generation for Large Language Models》——大言语模型检索增强文本生成综述(04/24) ()
原文地址
A Survey on Retrieval-Augmented Text Generation for Large Language Models (
2.《Retrieval-Augmented Generation for Large Language Models: A Survey》
简介
该论文讨论了大型言语模型中检索增强生成的概念,着重于如何经过检索从外部常识库中失掉关系信息来优化答案的准确性和缩小模型幻觉,特意是在常识密集型义务中。
摘译一下一些文章中比拟有用的内容:
RAG(检索增强生成) vs Fine-Tuning(微调)(原文第2节Background局部)
RAG是指结合了检索(从大型外部数据库中提取信息)和生成(基于检索到的信息生成答案)两个步骤。RAG经过引入外部常识起源,来增强言语模型的回答才干。Fine-Tuning是指在已有的预训练模型基础上,经过在特定数据集上启动额外的训练来优化模型。这个环节没有引入外部常识,而是调整模型以更好地顺应特定义务。
长处 |
劣势 |
实时降级 |
外部依赖 |
RAG能够访问最新的外部信息,坚持常识的时效性 |
RAG的性能高度依赖于外部常识库的品质和笼罩范围。 |
缩小幻觉 |
成功复杂 |
经过经常使用外部验证信息,RAG有助于缩小言语模型发生的失误或虚拟信息 |
RAG的成功比单纯的微调更复杂,须要处置检索和生成的结合。 |
高透明度 |
生成提前 |
生成答案时援用外部信息源,参与可信度和可追溯性。 |
检索环节或许参与回答活成的期间提前。 |
防止重训练 |
准确性应战 |
相比于微调,RAG缩小了频惨重训练的须要,由于模型可以经过检索即时失掉新信息 |
虽然可以缩小幻觉,但RAG也面临着确保检索结果准确性和关系性的应战。 |
文中的图2:RAG和其它模型优化方法比拟
RAG框架(原文第3节RAG Framework局部)
基础RAG(Naive RAG)、初级RAG(Advanced RAG)和模块化RAG(Modular RAG) 是检索增强生成在大型言语模型中运行的三种不同方式。
基础RAG是RAG方法的原始方式,它结合了信息检索和文本生成两个阶段。在这个框架中,当模型接纳到一个查问时,它首先口头一个检索步骤,从一个大型的、结构化的常识库中检索出与查问关系的信息片段。而后,这些检索到的信息被送入一个生成器模型,该模型结合原始查问和检索到的信息来生成回答。基础RAG的关键在于它将检索和生成严密结合,使得生成的回答能够应用检索到的实时外部信息。
初级RAG对基础RAG启动了改良,引入了 预检索(pre-retrieval)和后检索(post-retrieval) 优化战略。在预检索阶段,模型会经过对查问启动处置(如扩展或重写)来提高检索的准确性和关系性。在后检索阶段,模型可以对检索到的信息进后退一步的处置,如从新排序、信息紧缩或分解,以便更有效地融合到生成步骤中。这种初级RAG经过在检索前后参与额外的处置步骤,提高了回答的品质和关系性。
模块化RAG是一种更灵敏的RAG成功,它准许不同的检索和生成模块依据特定的运行需()求启动交流或从新性能。这种方法的关键在于模块化设计,使得钻研者和开发者可以针对特定疑问选用最适宜的检索器和生成器。例如,关于某些特定类型的查问,可以选用特化的检索模块,或许针对特定的生成义务,选用一个适宜该场景的生成器。模块化RAG提供了更大的灵敏性和顺应性,适用于多样化和灵活变动的运行场景。
高效和准确的检索(原文第4节Retriever局部)
要成功高效而准确的检索触及两局部的优化: 文档块大小(Document Chunk Size) 优化和 向量模型(Embedding Models) 优化,而思考到RAG的经常使用者未必有才干/资源启动模型优化,所以可以着重关注文档大小优化局部。
文中论述的内容大抵如下:较小的文档块可以提高信息检索的准确度,但或许失落高低文;较大的块提供更多高低文,但或许蕴含不关系信息。经常使用者可以依据内容复杂度或查问性质,灵活调整块的大小。并经过不同块大小的测试,找到最佳平衡点。
第4节还提到用 查问重写(Query Rewrite) 和 向量转换(Embedding Transformation) 来对齐用户查问和文档的语义空间,以及经常使用 监视训练(Supervised Training) 让检索器的输入与大型言语模型的偏好相对齐,想了解细节的可以阅读原文。
优化生成器(generator)(原文第5节Generator局部)
生成器选择了最终出现给用户的答案,文中也给出一些优化的打算。
检索失掉相应信息后,在提交至生成器之前须要启动 后检索处置(Post-retrieval Processing) ,指的是进一步处置、过滤或优化检索器从大型文档数据库中检索到的关系信息。而后再启动 信息紧缩(Information Compression) 和 结果重排(Result Rerank) 。这一环节的关键目的是提高检索结果的品质,以更好地满足用户需求或后续义务。比如减轻高低文长度限度和对冗余信息的易理性。
文章前面触及到对生成器的微调,感兴味的读者请看原文,在此不表。
RAG成果评价 (原文第6节Augmentation in RAG局部)
生成器生成答案后,须要有迷信的输入内容评价体系整个RAG流程才算闭环。
文中引见了两种评价RAG的方法: 独立评价(Independent Evaluation) 和 端到端评价(End-to-End Evaluation) 。
独立评价方法会区分评价 检索模块(Retrieval Module) 和 生成模块(Generation Module) ,其中检索模块评价目的包括目的包括 命中率(Hit Rate) 、 平均排名倒数(Mean Reciprocal Rank, MRR) 、 归一化折扣累积增益(Normalized Discounted Cumulative Gain, NDCG) 、 准确率(Precision) 等,这些目的用于测量系统在依据查问或义务排名名目方面的有效性。而生成模块评价理论在端到端评价中启动。评价目的关键关注高低文关系性,测量检索到的文档与查征询题的关系性。
端到端评价方法评价RAG模型对给定输入生成的最终照应,包括模型生成答案与输入查问的关系性和对齐水平。从内容生成目的视角来评价可以将评价划分为未标志内容和已标志内容。未标志内容评价目的包括 答案虔诚度(Answer Fidelity) 、 答案关系性(Answer Relevance) 、 有害性(Harmlessness) 等,而已标志内容评价目的包括 准确率(Accuracy) 和 准确婚配(Exact Match, EM) 。端到端评价可以分为人工评价和经常使用大型言语模型的智能评价。此外,还可以依据RAG在特定畛域的运行,驳回特定的评价目的,例如在问答义务中经常使用EM。
文章中还引见了两套RAG评价框架, RAGAS (Es et al. 2023) 和 ARES (Saad-Falcon et al. 2023)
两个评价框架的**焦点是以下三个关键目的:
原文地址 《Retrieval-Augmented Generation for Large Language Models: A Survey》(
3. 《Retrieving Multimodal Information for Augmented Generation: A Survey》
简介
《Retrieving Multimodal Information for Augmented Generation: A Survey》是一篇由新加坡南洋理工大学、新加坡国立大学和Salesforce Research的钻研人员撰写的论文,形容了多模态RAG的开展现状和未来趋向。在多模态RAG的钻研中,针对不同的模态,包括图像、代码、结构化常识、音频和视频,有不同的检索和分解程序、目的义务和应战。
本文摘译精髓局部作为多模态RAG钻研方向的参考。
译文地址
吕阿华:多模态RAG综述(
原文地址 Retrieving Multimodal Information for Augmented Generation: A Survey(
4.《A Guide on 12 Tuning Strategies for Production-Ready RAG Applications》
简介
文章关键讨论了如何经过调整 “超参数(hyperparameters)” 和驳回不同的调优战略来提高检索增强生成管道的性能。12个优化战略中,摄取阶段和推理阶段各有6个可优化点。由于篇幅所限,每个优化点作者都是点到为止,并没有太详细的实战案例说明。
摄取阶段(Ingestion Stage)
在RAG管道的摄取阶段,关键关注的是数据的预备和处置,以及如何有效地存储和索引数据。
RAG管道的摄取阶段
数据清算(Data Cleaning): 这个阶段须要确保数据品质,包括基本的人造言语处置清算技术,确保信息分歧性和理想准确性。
分块(Chunking): 将文档宰割成逻辑上连接的信息片段,这或许触及将长文档宰割成较小局部或将较小片段组分解连接段落。
向量模型(Embedding Models): 向量模型是检索的**,向量的品质极大影响检索结果。可以思考经常使用不同的向量模型,有条件的话可以对特定用例启动微调。
元数据(Metadata): 在向量数据库中存储向量时,可以参与元数据,以便于后续的搜查结果后处置。
多索引(Multi-indexing): 假设元数据无余以提供额外信息以逻辑上分隔不同类型的高低文,可以尝试经常使用多个索引。
索引算法(Indexing Algorithms): 选用和调整近似最近邻(ANN)搜查算法,比如Facebook的Faiss、Spotify的Annoy、Google的ScaNN和HNSWLIB。
推理阶段——检索和生成(Inferencing Stage——Retrieval & Generation)
推理阶段触及检索和生成环节,关键关注如何改良检索结果的关系性和生成照应的品质。
RAG管道的推理(检索和生成)阶段
查问转换(Query Transformations): 假设搜查查问未发生满意的结果,可以尝试不同的查问转换技术,如 从新措辞(Rephrasing) 、 假定文档嵌入(HyDE) 或 子查问(Sub-queries) 。
检索参数(Retrieval Parameters): 思考能否须要语义搜查或混合搜查,并调整聚合稠密和密集检索方法的权重。
初级检索战略(Advanced Retrieval Strategies): 探求初级检索战略,如句子窗口检索或智能兼并检索。
从新排序模型(Re-ranking Models): 经常使用从新排序模型来消弭不关系的搜查结果。
大言语模型(LLMs): LLM是生成照应的**组件。可以依据需求选用不同的LLM,并思考针对特定用例启动微调。
揭示词工程(Prompt Engineering): 揭示词的经常使用将清楚影响LLM的成功状况。
作者在文章扫尾就强调,数据迷信是一门试验性迷信,不存在适用于一切疑问的通用算法。文中的12种方法可以给读者在RAG优化的环节中的提供操作思绪,而作为数据迷信家,在详细的案例中须要经常使用试验跟踪系统来调整RAG名目的各项超参数,以成功最佳性能。
原文地址
《A Guide on 12 Tuning Strategies for Production-Ready RAG Applications》(
5. 《Improving Retrieval Performance in RAG Pipelines with Hybrid Search》
简介
文章关键讨论了如何经过结合传统的基于关键词的搜查和当下盛行的向量搜查来找到更关系的搜查结果,以提高RAG管道的性能。在RAG管道的开发中,到达初步的80%性能相对容易,但要成功残余的20%以到达消费就绪形态则颇具应战。作者强调,改良RAG管道的检索组件是一个经常出现的主题,其中混合搜查(Hybrid Search)是一个关键的战略。
混合搜查的定义和上班原理
混合搜查是一种结合两种或更多搜查算法的技术,旨在提高搜查结果的关系性。它理论指的是传统的基于关键词的搜查和现代的向量搜查的结合。
基于关键词的搜查(Keyword-based Search): 在混合搜查的高低文中,基于关键词的搜查理论经常使用称为稠密嵌入(Sparse Embeddings)的示意方式。这种稠密嵌入是由大局部为零值的向量组成,只要少数非零值。稠密嵌入可以经过不同的算法生成,其中最罕用的算法是BM25(Best Match 25),它基于TF-IDF(Term Frequency-Inverse Document Frequency)方法,并对其启动了改良。简而言之,BM25强调了基于它们在单个文档中的频率相关于一切文档的频率的术语的关键性。
向量搜查(Vector Search): 向量搜查是随着ML(机器学习)算法的提高而发生的现代搜查技术。现代机器学习算法中如 转换器(Transformers) 生成的数据对象(如文本、图像等)的数值示意,称为 向量嵌入(Vector Embeddings) 。这些向量嵌入理论蕴含少量信息,大局部由非零值组成(密集向量)。搜查查问被嵌入到与数据对象相反的向量空间中,而后经常使用其向量嵌入来计算与指定相似度度量(如 余弦距离(Cosine Distance) )最凑近的数据对象。前往的搜查结果依照与搜查查问的相似度排序。
关键词和向量搜查结果的融合: 基于关键词的搜查和向量搜查都会前往一组独自的结果,理论是按计算出的关系性排序的搜查结果列表。这两组独自的搜查结果须要被兼并。兼并两个排名列表的战略有很多种,理论首先对搜查结果启动评分。这些评分可以基于指定的度量(如余弦距离)或仅仅是搜查结果列表中的排名来计算。而后,经常使用参数alpha对计算出的评分启动加权,这个参数选择了每种算法的权重,并影响结果的从新排序。
混合得分(Hybrid Score) = (1 - alpha) * 稠密得分(Sparse Score) + alpha * 密集得分(Dense Score)
理论,alpha取值在0到1之间,其中:
alpha=0.5的混合搜查微型案例
如何应用混合搜查提高RAG管道的性能
RAG管道有许多可调整的局部以提高其性能。其中之一是经过改善检索组件来提高检索到的高低文的关系性,由于假设检索到的高低文关于回答给定疑问不关系,那么LLM也无法生成关系的答案。
依据高低文类型和查问,读者须要确定三种搜查技术中哪一种最无利于自己的RAG运行。因此,控制基于关键词搜查和语义搜查之间权重的alpha参数可以视为须要调整的 超参数(Hyperparameter) 。
文中还举了在LangChain中经常使用混合搜查的例子。在经常出现的经常使用LangChain的RAG管道中,可以经过设置经常使用的 向量存储组件(vectorstore component) 作为检索器来定义检索器组件,如下所示:
vectorstore retriever vectorstore
但是,这种方法只启用了语义搜查。假设读者想在LangChain中启用混合搜查,则须要定义一个具有混合搜查才干的特定检索器组件,比如WeaviateHybridSearchRetriever:
from langchain.retrievers.weaviate_hybrid_search import WeaviateHybridSearchRetrieverretriever = WeaviateHybridSearchRetriever(alpha = 0.5,client = client,index_name = "LangChain",text_key = "text",attributes = [],)
其余的个别RAG管道坚持不变。
这段代码更改准许读者尝试在基于关键词的搜查和向量搜查之间启动不同的权重调整。请留意,设置alpha = 1等于齐全的语义搜查,这相当于间接从向量存储组件定义检索器(retriever = vectorstore.as_retriever())。
何时经常使用混合搜查
活用混合搜查是一种理想形态,理论用户宿愿启用 语义搜查(Semantic Search) 的才干以提供更相似于人类的搜查体验,但同时也须要对特定术语启动准确短语婚配,例如经过序列号搜查。
在灵敏运用混合搜查方面一个很好的例子是Stack Overflow平台,它最近经过经常使用混合搜查扩展了其搜查才干。最后,Stack Overflow经常使用 TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率) 来婚配关键词和文档,但在形容正在尝试处置的编码疑问时或许就会遇到艰巨。比如用户不同的词汇形容疑问,就或许会造成不同的结果(例如,兼并两个Pandas>
和Stack Overflow一样,许多相似的理想环球用例可以从具有高低文感知的语义搜查中受益,但依然依赖于准确的关键词婚配。这些用例可以从成功混合搜查检索器组件中取得很大的好处。
原文地址
《Improving Retrieval Performance in RAG Pipelines with Hybrid Search》(
看到这里有没有觉得有不少生疏的名词?可以一边查字典一边看
吕阿华:人工智能名词字典 (
6. 《Advanced RAG Techniques: an Illustrated Overview》
简介
文章关键讨论了RAG技术的初级运行和算法,系统化地整顿了各种方法,附带了作者常识库中援用的各种成功和钻研的链接。文章的目的是概览和解释可用的RAG算法和技术,并不深化代码成功细节。
文章的引言局部提到两个最驰名的开源库用于基于LLM的管道和运行是和 LlamaIndex ,区分在2022年10月和11月成立,并chatGPT大热的带动下在2023年被少量驳回。本文中系统化整顿的初级RAG技术,以及提供对它们的成功的参考,也关键在LlamaIndex中启动。
文章关键的内容集中在 初级RAG(Advanced RAG) 局部,触及到的RAG技术有:
文章最后还引见了如何启动编码器和LLM微调来优化RAG的成果。由于文章中干货较多,楼主须要新开一篇专门搁置这篇文章。
译文地址
吕阿华:《初级 RAG 技术:图解概述》精髓摘要(
原文地址
《Advanced RAG Techniques: an Illustrated Overview》 (
7. 《SELF-RAG: Learning To Retrieve, Generate, and Critique Through Self-Reflection》
简介
这篇论文的关键内容是引见了一种名为SELF-RAG的框架,这是一种自我反思式的RAG方法,旨在提高LLM的生成品质和理想准确性。这个框架训练一个恣意的LLM以顺应性地检索文本段落,并在检索的环节中生成和反思检索到的段落及其自身的生成内容,经常使用不凡的反思token(reflection tokens)。文章经过试验对六项义务启动了片面评价,经常使用多个目的标明SELF-RAG清楚优于具有更多参数的LLMs或传统的检索增强生成方法。
译文地址
吕阿华:《SELF-RAG:经过自我反思学习检索、生成和自我批判》精髓摘译 (
原文地址 《SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION》(
8.《RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval》
简介
检索增强型言语模型(Retrieval-augmented language models) 能够顺应环球的变动并蕴含更宽泛的常识。但是,现有方法理论只能检索文档中的短文本段落,这限度了对文档全体高低文的深化了解。为了克制这个疑问,本文提出了 RAPTOR模型 ,它驳回一种翻新方法,经过 递归地向量化 、 聚类和摘要文本 , 自下而上构建出一个蕴含不同级别摘要的树状结构 。在经常使用时,RAPTOR能够从这棵树中检索信息,有效整合长篇文档中的信息,笼罩不同的形象档次。经过试验发现这种递归摘要的检索方式在多个义务上都优于传统的检索增强方法。特意是 在须要复杂推理的问答义务 上,结合 RAPTOR和GPT-4 的经常使用将 QuALITY基准测试的性能提高了20% 。
译文地址
吕阿华:《RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL》精髓摘译 (
原文地址
《RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval》(
9. 《Blended RAG: Improving RAG Accuracy with Semantic Search and Hybrid Query-Based Retrievers》
简介
RAG作为一种盛行的方法,它将私有文档库与LLM结合起来,用以构建生成式问答(Q&A)系统。但是,随着文档库的扩展,RAG的准确性变得越来越具有应战性,检索器在全体RAG准确性中表演着关键角色,经过从文档库中提取最关系的文档为LLM提供高低文。本文提出了一种‘混合RAG’方法,应用语义搜查技术,如密集向量索引和稠密编码器索引,结合混合查问战略。相应的钻研也取得了更好的检索结果,并为像NQ和TREC-COVID这样的信息检索(IR)数据集设定了新的基准。作者进一步将这种‘混合检索器’扩展到RAG系统中,展现了在像SQUAD这样的生成式问答数据集上的出色结果,甚至逾越了微调的性能。
译文地址
吕阿华:《Blended RAG: Improving RAG Accuracy with Semantic Search and Hybrid Query-Based Retrievers》精髓摘译 (
原文地址
《Blended RAG: Improving RAG Accuracy with Semantic Search and Hybrid Query-Based Retrievers》(
10. 《RAGAR, Your Falsehood RADAR: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models》
简介
随着虚伪信息疑问日益重大,特意是在政治话语中,迫切须要先进的理想核对处置打算。本文引入了翻新的方法,经过将大型言语模型(LLMs)与基于检索增强生成(RAG)的初级推理技术相结合,来提高多模态理想核对的牢靠性和效率。本钻研提出了两种新方法:
链式RAG(CoRAG)和树式RAG(ToRAG)。这些方法经过推理基于前期证据须要回答的下一个疑问来处置多模态申明。与传统的子疑问生成和链式推理实在性预测方法相比,本文的方法提高了实在性预测的准确性,并改良了解释生成。经过驳回长于剖析文本和图像的多模态LLM,本钻研增强了智能化系统在识别和反抗虚伪信息方面的才干。
译文地址
吕阿华:《虚伪信息雷达RAGAR:经常使用MLLMs启动理想核对的RAG增强推理》精髓摘译(
原文地址
RAGAR, Your Falsehood RADAR: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models(
11.《Evaluating RAG Applications with RAGAs》
简介
第一篇文章引见了一个用于评价RAG运行的框架,称为 RAGAs(Retrieval-Augmented Generation Assessment) ,这篇文章详细引见了RAGAS框架,它的**目的是提供一套综合性的评价目的和方法,以量化地评价 RAG管道(RAG Pipeline) 在不同组件层面上的性能。RAGAs特意适用于那些结合了 检索(Retrieval) 和 生成(Generation) 两个关键组件的RAG系统。
评价体系(原文Evaluation Metrics局部)
文章Evaluation Metrics局部引见了RAGAs的评价体系:
无参考评价: RAGAs最后设计为一种“无参考”评价框架,象征着它不依赖于人工注释的实在标签,而是应用大型言语模型(LLM)启动评价。
组件级评价: RAGAs准许对RAG管道的两个关键组件——检索器和生成器——区分启动评价。这种分别评价方法有助于准确地识别管道中的性能瓶颈。
检索器和生成器的性能表
综合性评价目的: RAGAs提供了一系列评价目的,包括 高低文精度(Context Precision) 、 高低文召回(Context Recall) 、 虔诚度(Faithfulness) 和 答案关系性(Answer Relevancy) 。这些目的独特造成了RAGAs评分,用于片面评价RAG管道的性能。
评价流程(原文Evaluating a RAG Application with RAGAs局部)
RAGAs的评价流程在文中有比拟详细的形容,在此只摘抄关键字。
RAGAs评价流程
虽然构建一个 概念验证(Proof-of-Concept) 的RAG运行相对容易,但要使其性能到达消费就绪形态却十分艰巨。在领有评价RAG运行性能的工具的基础上,读者们可以建设一个试验管道,并开局经常使用各种调优战略来调整性能。
原文地址
《Evaluating RAG Applications with RAGAs》 (
12.《Evaluating Verifiability in Generative Search Engines》
简介
这篇论文钻研了生成式搜查引擎在应答用户查问时,其回应的 可验证性(Verifiability) 。一个值得信任的生成式搜查引擎应具有高度的可验证性,即系统应片面(高援用召回率(Citation Recall),一切陈说都有充沛援用支持)且准确(高 援用准确度(Citation Precision) ,每个援用都支持其关系陈说)地援用资料。钻研经过人类评价对四个盛行的生成式搜查引擎 —— Bing Chat、NeevaAI、perplexity.ai 和—— 在各种查问中的体现启动了审查。钻研发现,虽然这些引擎的回应流利且看似信息丰盛,但经常蕴含未经支持的陈说和不准确的援用:平均而言,只要51.5%的生成句子失掉了援用的齐全支持,而仅有74.5%的援用支持其关联的句子。
可验证性评价方法
文中第2节Human Evaluation of Fluency, Perceived Utility, and Verifiability中引见了4个评价可验证性的维度和方法,区分是 流利性(Fluency) 、 感知成效(Perceived Utility) 、援用召回率和援用准确度。
流利性的测量方法是经过让评价者对生成回应的流利性和连接性启动评分来测量。评价者须要思考文本的语法正确性和全体的连接性。而后让评价者经常使用五点Likert量表(从“剧烈不赞同”到“剧烈赞同”)对生成回应的流利性和连接性做出评价。
感知成效的测量方法是让评价者依据生成回应能否有助于回答用户的疑问,对其有用性启动评价。雷同驳回五点Likert量表。
援用召回率的测量会首先识别出回应中须要验证的陈说,而后判别对每个陈说,确定能否有援用支持,并评价这些援用能否充沛撑持了陈说的内容。
援用准确度的测量会让评价者对每个陈说判别其关联援用提供了多少支持(零/局部/所有),其中关于有多个援用的陈说,评价者还需判别这些援用的综合能否为陈说提供了齐全支持。而后依据援用对陈说的支持水平计算援用的准确度。
文中还定义了一个可验证性的综合目的Citation F1,该目的值越大,系统的可验证性越高。
Citation F1 =
论文的第4节Results and Analysis局部还列出了前面提到的4个生成式搜查引擎不同维度的评价结果,这里不费篇幅引见,有兴味的读者请移步原文了解概略。
原文地址
《Evaluating Verifiability in Generative Search Engines》(
13. 《ARAGOG: Advanced RAG Output Grading》
简介
RAG关于把外部常识融入大型言语模型LLM的输入中十分关键。虽然围绕 RAG 的钻研文献逐渐增多,关键集中于系统地回忆和比拟新的最先端(SoTA)技术及其前身,但在启动宽泛的试验比拟方面还存在无余。本项钻研旨在经过评价不同 RAG 方法对检索精度和答案相似度的影响来填补这一空白。钻研结果标明,假定性文档嵌入(Hypothetical Document Embedding,HyDE)和 LLM 的重排序能够清楚提高检索精度。但是,最大边沿关系性(Maximal Marginal Relevance,MMR)和 Cohere 的重排序并没有显示出相关于便捷 RAG 系统的清楚长处,多查问方法的成果也不尽善尽美。句子窗口检索被证实是提高检索精度最有效的方法,虽然其在答案相似度方面的体现不够稳固。该钻研还验证了文档摘要索引作为一个有效检索方式的或许性。
译文地址
吕阿华:《ARAGOG: Advanced RAG Output Grading(初级RAG输入评分)》精髓摘译(
原文地址
《ARAGOG: Advanced RAG Output Grading》(
降级日志
原文链接: