RAG&amp 多模态多模态RAG_萌爵百货商行网

RAG&amp 多模态多模态RAG

koi

2024-11-14 23:17:27发布
关注私信

258 572 629

前期文章提到，多模态的RAG框架ColPali经过视觉言语模型（VLMs）高效地检索纯视觉特色的文档，成功视觉文档问答。【RAG&多模态】多模态RAG-ColPali：经常使用视觉言语模型成功高效的文档检索

本文再来看一个相似上班，VisRAG，一种基于视觉言语模型的检索增强生成（RAG）方法，用于处置多模态文档中的消息应用疑问。

方法

VisRAG分为VisRAG-Ret和VisRAG-Gen两个阶段。

传统的基于文本的RAG（TextRAG，左）依赖于解析后的文本启动检索和生成，失落了多模态文档中的视觉消息；基于视觉的RAG（VisRAG，右）驳回基于VLM的检索器和生成器间接处置文档页面的图像，从而保管原始页面中的一切消息。

检索阶段：VisRAG-Ret

VisRAG-Ret将query和文档页面区分作为文本和图像在VLM中启动编码，发生一系列暗藏形态。最终嵌入经过对最后一层VLM暗藏形态启动加权平均池化获取：

其中，是第个暗藏形态，是序列长度，是第个权重，是查问或页面的嵌入。相似度得分经过查问和页面嵌入的余弦相似度计算。VisRAG-Ret经常使用InfoNCE损失启动优化：

其中,是注释档,是负文档集,是查问和d之间的相似度得分,是温度。

生成阶段：VisRAG-Gen

VisRAG-Gen经常使用VLM依据用户query和检索到的页面熟成答案。

试验成果

参考文献

原文链接：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Agent #盘古 #多模态 #AIGC #通义千问 #Sora #RAG #混元 #清言 #言犀 #云雀 #人工自动 #ChatGPT #LaMDA #文心一言 #AIGC运行 #日日新 #紫东太初 #大模型 #Copilot #GPT #悟道 #4 #OpenAI #AI #孟子 #Bard #开源大模型

RAG&amp 多模态 多模态RAG

方法

检索阶段：VisRAG-Ret

生成阶段：VisRAG-Gen

试验成果

参考文献

RAG&amp 多模态多模态RAG