引言:文本检索在消息检索系统中的关键性
文本检索是消息检索系统的**组成局部,它在搜查引擎、问答系统和介绍系统等多种运行中施展着至关关键的作用。随着技术的开展,文本检索曾经从便捷的关键词婚配演化为应用复杂的算法了解和婚配文本的语义。特意是在问答系统中,文本检索技术能够从少量数据中找到与用户查问最相关的消息,这关于提高系统的准确性和用户满意度至关关键。
近年来,随着深度学习技术的开展,基于神经网络的排名模型在文本检索中的运行越来越宽泛。这些模型经过学习文本之间深层的语义相关,能够更准确地评价和排序搜查结果,从而清楚提高检索的准确性。此外,多阶段文本检索系统的产生,经过先启动粗挑选再精细排序的模式,进一步提高了检索效率和准确性。
本文将详细引见文本检索技术的最新停顿,特意是在问答系统中的运行,并经过试验比拟不同排名模型的功能,为文本检索技术的开展和运行提供参考。
论文题目 : Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG
机构 : NVIDIA
论文链接 :
文本检索与排名模型的基本概念
1. 文本检索的**作用
文本检索是许多消息检索运行的**组成局部,如搜查、问答(Q&A)和介绍系统。近年来,文本检索经过检索增强生成(RAG)系统被赋予了新的使命,即为大型言语模型(LLM)提供外部和最新的高低文消息。
2. 文本嵌入模型
文本嵌入模型将变长文本示意为固定维度的向量,这关于有效的文本检索至关关键,由于它们能够语义婚配文本内容。这些模型基于Transformer架构,如Sentence-BERT、DPR等,理论经过对比学习作为双编码器或后组合模型启动训练,优化模型以最大化查问和相关(正向)段落之间的相似性,同时最小化查问和非相关(负向)段落之间的相似性。
3. 排名模型
排名模型在文本检索系统中施展着至关关键的作用,它们理论作为交叉编码器,输入查问和段落对,经常使用自留意力机制深化模拟查问和段落对的语义相关。排名模型仅为检索模型检索到的顶部候选段落提供相关性预测,可以经过经常使用较小的嵌入模型来提高检索准确性,从而清楚缩小索引期间和老本。
NV-RerankQA-Mistral-4B-v3模型的引见与长处
1. 模型概述
NV-RerankQA-Mistral-4B-v3是一种先进的排名模型,它在文本检索准确性上成功了清楚优化。该模型是从Mistral 7B模型修剪而来,只保管了底部的16层,以缩小推理计算和内存需求。此外,它的自留意力机制从单向(因果)修正为双向,以改良Mistral基于嵌入模型的准确性。
2. 训练与优化
NV-RerankQA-Mistral-4B-v3驳回对比学习和InfoNCE损失函数启动训练,这种列表式对比学习损失函数旨在最大化疑问和正向段落对的相关性得分,同时最小化疑问和负向段落对的得分。在数据预解决阶段,经过经常使用老师嵌入模型从语料库中开掘负样本,以确保高品质的训练数据。
试验设置与数据集
1. 数据集选用与解决
在本钻研中,咱们经常使用了BEIR数据集的三个问答子集:Natural Questions (NQ)、HotpotQA 和 FiQA。这些数据集曾经被预解决,宰割成不超越512个词元的小段落。这种解决模式是为了顺应模型输入的限度,并确保数据的分歧性和可治理性。
2. 试验流程
试验的设置模拟了典型的文本检索索引和查问流程。首先启动索引流程,将文本语料库宰割成更小的段落,并经常使用嵌入模型将这些段落转换成向量后存储在向量数据库中。查问流程随后启动,关于每个查问,系统都会前往一个按相关性排序的段落列表,用于计算检索目的(如NDCG@10)。
在详细成功中,查征询题被嵌入后,经过向量搜查(例如经常使用准确或近似最近邻算法)在向量索引中找到最相关的top-k段落。而后,这些top-k段落经过排名模型启动从新排序,以生成最终的有序列表。
试验结果与剖析
1. 基准结果
咱们在不同的嵌入模型和排名模型组合下,对文本检索流程启动了基准测试。测试结果显示在不同的问答数据集上的NDCG@10评分如下:
特意是,NV-RerankQA-Mistral-4B-v3排名模型在一切数据集上都提供了最高的排名准确性,较第二好的排名模型(bge-reranker-v2-m3)高出14%。
模型训练的掂量思考
在部署文本检索系统时,尤其是触及到排名模型的多阶段文本检索系统,咱们必定在模型大小、排名准确性和系统需求(如索引和服务的提前/吞吐量)之间启动掂量。这些掂量思考关于成功高效且老本效益高的系统至关关键。
1. 模型大小与系统功能的掂量
模型的大小间接影响到系统的功能。大型模型只管能够提高检索的准确性,但同时也会参与索引的期间和老本。例如,经常使用大型嵌入模型(如NV-EmbedQA-Mistral7B-v2)启动文本索引,会清楚参与解决期间,这关于须要频繁降级索引的运行场景是无法接受的。因此,或者须要经过经常使用较小的嵌入模型和排名模型的组合来优化功能和老本。
2. 排名准确性与索引吞吐量的掂量
排名模型可以清楚提高检索的准确性,特意是在顶级候选文档的再排名中。但是,这种准确性的提高或者以就义索引吞吐量和服务提前为代价。例如,NV-RerankQA-Mistral-4B-v3只管在排名准确性上体现优秀,但其复杂性和计算需求较高,或者不适宜须要极速照应的运行。
本文转载自 技术栈 ,作者: