效果优化清楚清华大学&amp VisRAG 面壁自动提出了一种新的RAG思绪

1. 为啥要提出VisRAG？

检索增强生成（Retrieval-augmented generation, RAG）曾经成为处置LLM幻觉和常识降级的经典打算，典型的RAG流程是基于文本的（以下简称TextRAG），以宰割后的文本作为检索单元。

但是在实在场景中，常识往往 以多模态的方式 发生，比如教科书、手册等。这些文档中的文本与图像交织在一同。为了从这类数据源中提取文本，理论须要一个解析阶段，这包括规划识别、光学字符识别（OCR）和文本兼并等后处置步骤。虽然这种方法在大少数状况下是有效的，但解析环节还是会无法防止地引入失误，从而对检索和生成阶段发生负面影响。

TextRAG只应用了文本消息，疏忽了其余模态，如图像中或者蕴含的消息。虽然曾经对图像检索和多模态RAG启动了钻研，但这些钻研重要集中在预约义场景中，其中图像和形容性文本曾经被正确提取和配对，与事实环球中文本和图像（包括图形）经常交织在单个文档页面内的状况有所不同。

所以，本文作者提出了一种VisRAG，旨在探求齐全基于视觉言语模型（VLMs）构建纯视觉RAG流程的可行性。

2. 什么是VisRAG？

VisRAG是一种新型视觉检索增强生成系统，由VLM驱动的检索器VisRAG-Ret和生成器VisRAG-Gen组成。

如上图（左边）所示，TextRAG 理论经常使用基于文本的单元启动检索和生成。左边是 VisRAG，与传统RAG框架应用文本片段启动检索和生成不同，VisRAG经过文档图像来保管所有消息，确保数据的完整性。

2.1 检索阶段

VisRAG的首个环节，即VisRAG-Ret，在给定查问q的状况下，从文档汇合D中检索出一系列页面。

自创了文本密集检索器的 Bi-Encoder 架构，将查问和文档（ 间接经常使用文档图像，而非依赖提取的文本内容 ）映射到嵌入空间。

Bi-Encoders：将句子 A 和 B 独立地传递给 BERT，从而发生句子嵌入 u 和 v，而后可以经常使用余弦相似度比拟。

查问和页面在VLM中区分以文本和图像的方式独立编码，为了获取最终的嵌入向量，驳回了位置加权平均池化处置VLM的最后一层暗藏形态。

2.2 生成阶段

VisRAG的第二环节：VisRAG-Gen，应用视觉言语模型（VLM）依据用户查问和检索出的页面熟成答案。思考到检索出的页面往往都不止一页，而大少数多模态大模型只能接受单张图片，所以提出了两种打算来成功：

• 页面兼并（Page Concatenation）：将检索出的页面兼并为一张图片，在VisRAG中，作者重要尝试的是水平兼并。

• 加权挑选（Weighted Selection）：让VLM为top-k中的每个页面熟成一个答案，并选用置信度最高的答案作为最终答案。

3. 效果对比

3.1 检索功能

对比了VisRAG-Ret与三种状况模型启动对比：

• a. 现成模型

• b. 仅应用分解数据的跨畛域模型

• c. 同时应用畛域内和分解数据

如上表(a)(b)所示，VisRAG-Ret在跨畛域数据上的训练成绩逾越了一切现成基线模型，包括文本和视觉模型。它清楚地优于BM25和bge-large，并逾越了领有7.85B参数的先进文本检索模型NV-Embed-v2。

bge-large和NV-Embed-v2是在数百万查问-文档对上训练的，比VisRAG-Ret训练数据多出10倍。虽然bge-large在MTEB等基准测试中胜过BM25，但在作者的数据集上体现不佳，标明：在洁净文本上训练的嵌入模型难以应答事实环球文档解析出的文本。

当在相反的数据设置下训练时，VisRAG-Ret清楚逾越了文本模型MiniCPM (OCR) & (Captioner)和视觉模型SigLIP。

在跨畛域环境中，VisRAG-Ret的长处愈加清楚，相较于MiniCPM (OCR)和SigLIP区分 成功了15%和22%的优化 ，而在畛域内环境中优化为8%和10%。说明VisRAG-Ret相比以文本和视觉为核心的模型具备更佳的泛化才干。

虽然MiniCPM (Captioner)经常使用了相反的VLM MiniCPM-V 2.0启动解析，但其体现不迭VisRAG-Ret，这标明 间接用VLMs编码比用VLMs解析更为有效 。或者是由于在将多模态消息转录为文本时无法防止地会有消息损失。

MiniCPM (OCR)和SigLIP在不同数据集上的体现各异：

• SigLIP在ArxivQA和ChartQA中体现杰出，而MiniCPM (OCR)在DocVQA和InfographicsVQA中清楚优于SigLIP。这或者是由于两个模型的关注点不同：MiniCPM并重于文本，而SigLIP并重于视觉信号。

• VisRAG-Ret基于MiniCPM-V 2.0构建，联合了SigLIP编码器和MiniCPM言语模型的长处，在一切数据集上均有良好体现，能够从文档中捕捉更片面的消息。

与ColPali相比，ColPali是一个多向量文档页面嵌入模型，VisRAG-Ret坚持了优越的功能，成功了更佳的内存效率。ColPali用散布在1030个128维向量上的256KB数据示意一页，而VisRAG-Ret仅经常使用单个2304维向量的4.5KB。这使得VisRAG-Ret更适宜在事实环球的运行中裁减至数百万或数十亿文档。

3.2 生成功能

在一致的检索自动体VisRAG-Ret之上，运行了多种基于文本和视觉的生成器和方法，探求它们在给定查问和检索文档的状况下生成答案的才干。

上表展现了多种生成方式的效果：

• a. 基于文本的生成（TextRAG-Gen）

• b. 驳回单张图片输入的VLM MiniCPM-V 2.0启动的生成

• c. 驳回能接受多张图片输入的VLM启动的生成

当模型仅被提供实在文档（"Oracle"）时，间接处置文档图像的VisRAG-Gen模型清楚逾越了仅依赖提取文本的RAG-Gen模型。比如：MiniCPM-V 2.0在应用实在文档时的功能比MiniCPM (OCR)高出36%。从文档中提取答案时视觉线索的关键作用，并显示出VisRAG-Gen相比TextRAG-Gen有着更高的功能后劲。

在实践运行场景中，模型理论会接纳到蕴含噪声的前1至3个检索文档，VisRAG-Gen在同一系列模型中继续逾越TextRAG-Gen。

特意是关于仅能处置单张图片的MiniCPM-V 2.0，加权选用方法在处置2或3个检索文档时，比页面兼并方法展现出更优的体现。便捷的兼并或者会向VLM传递过多不用要的消息，而加权选用则基于各个文档的条件，经过多个VLM输入来挑选答案，从而减轻了消息负载。

TextRAG流程理论因检索文档数量的参与而受益，由于这能更好地笼罩信。但是，虽然加权选用增强了功能的持重性，但驳回这种方法时，随着检索文档数量的参与，并没有带来清楚的功能优化。值得留意的是，仅有最先进的VLM，如能处置多张图片的GPT-4o， 随着检索文档数量的参与，体现出清楚的功能优化 。这标明对多张图片启动推理对的VLM来说仍是一个应战。

3.3 全体功能

在这项试验中，对比了VisRAG与TextRAG两条处置流程的效果，以评价VisRAG流程的有效性。

TextRAG流程中，驳回了MiniCPM (OCR)担任检索，MiniCPM-V 2.6 (OCR)担任生成，而VisRAG流程则由VisRAG-Ret担任检索，MiniCPM-V 2.6担任生成。

下面两个图展现了在InfographicsVQA数据集上的功能体现。

VisRAG在准确检索文档的比率上逾越了TextRAG，并且在从准确检索到的文档生成正确答案的比率上也有清楚优化。检索和生成两个阶段的综合改良，使得全体准确率从22.1%优化至42.7%。

在六个评价数据集中，VisRAG平均成功了39%的准确率优化（如上图）。

• 论文原文:

本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#AI #混元 #Copilot #LaMDA #VLMs #Agent #清言 #开源大模型 #通义千问 #Sora #Bard #人工自动 #日日新 #大模型 #GPT #云雀 #4 #言犀 #文心一言 #ChatGPT #AIGC #场景 #悟道 #AIGC运行 #VisRAG #盘古 #紫东太初 #孟子 #OpenAI #多模态

效果优化清楚 清华大学&amp VisRAG 面壁自动提出了一种新的RAG思绪