1. 为啥要提出VisRAG?
检索增强生成(Retrieval-augmented generation, RAG) 曾经成为处置LLM幻觉和常识降级的经典打算,典型的RAG流程是基于文本的(以下简称TextRAG),以宰割后的文本作为检索单元。
但是在实在场景中,常识往往 以多模态的方式 发生,比如教科书、手册等。这些文档中的文本与图像交织在一同。为了从这类数据源中提取文本,理论须要一个解析阶段,这包括规划识别、光学字符识别(OCR)和文本兼并等后处置步骤。虽然这种方法在大少数状况下是有效的,但解析环节还是会无法防止地引入失误,从而对检索和生成阶段发生负面影响。
TextRAG只应用了文本消息,疏忽了其余模态,如图像中或者蕴含的消息。虽然曾经对图像检索和多模态RAG启动了钻研,但这些钻研重要集中在预约义场景中,其中图像和形容性文本曾经被正确提取和配对,与事实环球中文本和图像(包括图形)经常交织在单个文档页面内的状况有所不同。
所以,本文作者提出了一种VisRAG,旨在探求齐全基于视觉言语模型(VLMs)构建纯视觉RAG流程的可行性。
2. 什么是VisRAG?
VisRAG是一种新型视觉检索增强生成系统,由VLM驱动的检索器VisRAG-Ret和生成器VisRAG-Gen组成。
如上图(左边)所示,TextRAG 理论经常使用基于文本的单元启动检索和生成。左边是 VisRAG,与传统RAG框架应用文本片段启动检索和生成不同,VisRAG经过文档图像来保管所有消息,确保数据的完整性。
2.1 检索阶段
VisRAG的首个环节,即VisRAG-Ret,在给定查问q的状况下,从文档汇合D中检索出一系列页面。
自创了文本密集检索器的 Bi-Encoder 架构,将查问和文档( 间接经常使用文档图像,而非依赖提取的文本内容 )映射到嵌入空间。
Bi-Encoders:将句子 A 和 B 独立地传递给 BERT,从而发生句子嵌入 u 和 v,而后可以经常使用余弦相似度比拟。
查问和页面在VLM中区分以文本和图像的方式独立编码,为了获取最终的嵌入向量,驳回了位置加权平均池化处置VLM的最后一层暗藏形态。
2.2 生成阶段
VisRAG的第二环节:VisRAG-Gen,应用视觉言语模型(VLM)依据用户查问和检索出的页面熟成答案。思考到检索出的页面往往都不止一页,而大少数多模态大模型只能接受单张图片,所以提出了两种打算来成功:
• 页面兼并(Page Concatenation):将检索出的页面兼并为一张图片,在VisRAG中,作者重要尝试的是水平兼并。
• 加权挑选(Weighted Selection):让VLM为top-k中的每个页面熟成一个答案,并选用置信度最高的答案作为最终答案。
3. 效果对比
3.1 检索功能
对比了VisRAG-Ret与三种状况模型启动对比:
• a. 现成模型
• b. 仅应用分解数据的跨畛域模型
• c. 同时应用畛域内和分解数据
如上表(a)(b)所示,VisRAG-Ret在跨畛域数据上的训练成绩逾越了一切现成基线模型,包括文本和视觉模型。它清楚地优于BM25和bge-large,并逾越了领有7.85B参数的先进文本检索模型NV-Embed-v2。
bge-large和NV-Embed-v2是在数百万查问-文档对上训练的,比VisRAG-Ret训练数据多出10倍。虽然bge-large在MTEB等基准测试中胜过BM25,但在作者的数据集上体现不佳,标明:在洁净文本上训练的嵌入模型难以应答事实环球文档解析出的文本。
当在相反的数据设置下训练时,VisRAG-Ret清楚逾越了文本模型MiniCPM (OCR) & (Captioner)和视觉模型SigLIP。
在跨畛域环境中,VisRAG-Ret的长处愈加清楚,相较于MiniCPM (OCR)和SigLIP区分 成功了15%和22%的优化 ,而在畛域内环境中优化为8%和10%。说明VisRAG-Ret相比以文本和视觉为核心的模型具备更佳的泛化才干。
虽然MiniCPM (Captioner)经常使用了相反的VLM MiniCPM-V 2.0启动解析,但其体现不迭VisRAG-Ret,这标明 间接用VLMs编码比用VLMs解析更为有效 。或者是由于在将多模态消息转录为文本时无法防止地会有消息损失。
MiniCPM (OCR)和SigLIP在不同数据集上的体现各异:
• SigLIP在ArxivQA和ChartQA中体现杰出,而MiniCPM (OCR)在DocVQA和InfographicsVQA中清楚优于SigLIP。这或者是由于两个模型的关注点不同:MiniCPM并重于文本,而SigLIP并重于视觉信号。
• VisRAG-Ret基于MiniCPM-V 2.0构建,联合了SigLIP编码器和MiniCPM言语模型的长处,在一切数据集上均有良好体现,能够从文档中捕捉更片面的消息。
与ColPali相比,ColPali是一个多向量文档页面嵌入模型,VisRAG-Ret坚持了优越的功能,成功了更佳的内存效率。ColPali用散布在1030个128维向量上的256KB数据示意一页,而VisRAG-Ret仅经常使用单个2304维向量的4.5KB。这使得VisRAG-Ret更适宜在事实环球的运行中裁减至数百万或数十亿文档。
3.2 生成功能
在一致的检索自动体VisRAG-Ret之上,运行了多种基于文本和视觉的生成器和方法,探求它们在给定查问和检索文档的状况下生成答案的才干。
上表展现了多种生成方式的效果:
• a. 基于文本的生成(TextRAG-Gen)
• b. 驳回单张图片输入的VLM MiniCPM-V 2.0启动的生成
• c. 驳回能接受多张图片输入的VLM启动的生成
当模型仅被提供实在文档("Oracle")时,间接处置文档图像的VisRAG-Gen模型清楚逾越了仅依赖提取文本的RAG-Gen模型。比如:MiniCPM-V 2.0在应用实在文档时的功能比MiniCPM (OCR)高出36%。从文档中提取答案时视觉线索的关键作用,并显示出VisRAG-Gen相比TextRAG-Gen有着更高的功能后劲。
在实践运行场景中,模型理论会接纳到蕴含噪声的前1至3个检索文档,VisRAG-Gen在同一系列模型中继续逾越TextRAG-Gen。
特意是关于仅能处置单张图片的MiniCPM-V 2.0,加权选用方法在处置2或3个检索文档时,比页面兼并方法展现出更优的体现。便捷的兼并或者会向VLM传递过多不用要的消息,而加权选用则基于各个文档的条件,经过多个VLM输入来挑选答案,从而减轻了消息负载。
TextRAG流程理论因检索文档数量的参与而受益,由于这能更好地笼罩信。但是,虽然加权选用增强了功能的持重性,但驳回这种方法时,随着检索文档数量的参与,并没有带来清楚的功能优化。值得留意的是,仅有最先进的VLM,如能处置多张图片的GPT-4o, 随着检索文档数量的参与,体现出清楚的功能优化 。这标明对多张图片启动推理对的VLM来说仍是一个应战。
3.3 全体功能
在这项试验中,对比了VisRAG与TextRAG两条处置流程的效果,以评价VisRAG流程的有效性。
TextRAG流程中,驳回了MiniCPM (OCR)担任检索,MiniCPM-V 2.6 (OCR)担任生成,而VisRAG流程则由VisRAG-Ret担任检索,MiniCPM-V 2.6担任生成。
下面两个图展现了在InfographicsVQA数据集上的功能体现。
VisRAG在准确检索文档的比率上逾越了TextRAG,并且在从准确检索到的文档生成正确答案的比率上也有清楚优化。检索和生成两个阶段的综合改良,使得全体准确率从22.1%优化至42.7%。
在六个评价数据集中,VisRAG平均成功了39%的准确率优化(如上图)。
• 论文原文:
本文转载自,作者: