多模态实体链接的关键性与应战
多模态实体链接(Multimodal Entity Linking, MEL)是常识图谱畛域中的一项基础义务,旨在将文档中的提及(mentions)链接到常识库中的实体。随着社交媒体和互联网的开展,文本和视觉的多模态性成为数据义务中的关键媒介。同时,线上消息的品质错落不齐,许多提及自身含混不清,高低文消息毛糙,仅依托文本模态往往难以启动有效消歧。但是,文本和视觉模态的结合往往能更准确、更轻松地启动消歧。例如,提及“United States”或者指代不同的实体,如国度称号、体育队伍或船只,但当同时思考文本和视觉消息时,可以更容易地将“United States”准确链接到“美国国度轮椅橄榄球队”的实体。
虽然深度学习方法在MEL义务中取得了必定的成绩,经过融合提及文本和图像失掉提及示意、运行交叉留意力机制和编码图像提取特色等方法,但这些方法仍面临多个应战:
为了处置上述疑问,咱们引入了一个一致框架UniMEL,旨在经常使用大型言语模型处置MEL义务,充沛融合多模态提及的图像和高低文,并生成实体的新繁复形容。据咱们所知,这是初次在MEL义务中引入基于多模态大型言语模型(MLLMs)的方法。
论文概览:题目、作者、会议和链接
题目 : UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
作者 : Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen
会议 : Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24
多模态实体链接的定义与运行场景
多模态实体链接(Multimodal Entity Linking, MEL)是一种在常识库中将文本提及(mentions)与实体相链接的义务,这些提及不只蕴含文本消息,还包括视觉消息。这种链接模式在许多人造言语处置(NLP)的下游运行中十分有用,例如疑问回答和介绍系统。随着社交媒体和互联网的开展,文本和视觉的多模态性成为了数据义务的关键媒介。例如,提及“美国”或者指向不同的实体,如国度、体育队伍或船只,但当同时思考文本和视觉消息时,可以更准确地将其链接到“美国国度轮椅橄榄球队”的实体。
UniMEL框架的**组件与上班流程
1. LLMs-based Entity Augmentation
为了处置实体形容过长和消息冗余的疑问,UniMEL框架经常使用大型言语模型(LLMs)来有效地摘要实体形容。经过向LLMs提供实体称号和其原始形容,并设计特定指令来强调生成摘要的繁复性和内容要求,LLMs能够生成新的、繁复的、消息丰盛的实体形容摘要。
2. MLLMs-based Mention Augmentation
应用多模态大型言语模型(MLLMs)的弱小视觉了解和指令遵照才干,UniMEL框架增强了提及的形容消息。经过将提及的图像、称号和文本高低文输入MLLMs,并设计特定的义务指令来疏导MLLMs专一于提及自身,从而生成高品质的文本形容,增强提及的消息。
3. Retrieval Augmentation
在选用最佳婚配实体之前,理论须要增加候选集并尽或者确保其准确性。经过增强的实体和提及消息,首先将实体称号和新形容衔接起来,并经常使用预训练的嵌入模型失掉其嵌入示意。而后,计算提及嵌入与常识库中每个实体嵌入的余弦相似度,检索出相似度最高的K个实体。
4. Multi-choice Selection
在域特定义务和数据上微调LLMs可以增强其在处置特定义务中的才干。经过高品质的数据和小规模候选集,设计了一个用于LLM指令调整的揭示模板。LLM依据给定的指令和文本输入预测答案,从而选用与提及最婚配的实体。
试验设计与数据集引见
1. 数据集引见
这些数据集的统计消息如下表所示:
数据集 |
训练集样本数 |
验证集样本数 |
测试集样本数 |
Wikidiverse |
2. 试验设置
咱们的试验设置遵照了之前的上班,数据集被划分为训练集、验证集和测试集。咱们经常使用Wikidata作为咱们的常识库,并移除了那些在Wikidata中找不到对应实体的提及。在Wikidiverse中,数据集被划分为80%训练集、10%验证集和10%测试集。在WikiMEL和Richpedia中,数据集被划分为70%训练集、10%验证集和20%测试集。
关键试验结果与剖析
1. 试验结果
咱们的UniMEL框架在三个数据集上的体现如下:
这些结果标明,咱们的UniMEL框架在多模态实体链接义务中具备清楚的长处,并且能够有效地处置不同的数据集和实体类型。
2. 结果剖析
咱们的UniMEL框架经过整合文本和视觉消息,并对实体形容启动精简,有效地提高了实体链接的准确性。此外,咱们还对模型启动了微调,仅调整了约0.26%的模型参数,这进一步提高了模型在特定畛域义务上的体现。
经过对比不同的基线方法,咱们发现即使是纯文本方法(如BERT),也能在某些数据集上展现出不错的功能。但是,结合视觉消息的方法(如咱们的UniMEL)在处置含混不清和品质较低的提及消息时,体现更为杰出。
总体来说,这些试验结果验证了咱们的UniMEL框架在多模态实体链接义务中的有效性和先进性。
模型的长处与应战
1. 模型的长处
UniMEL模型在多模态实体链接义务中展现出清楚的长处。首先,该模型经过结合大型言语模型(LLMs)和多模态大型言语模型(MLLMs),有效地处置了文本和视觉消息的融合疑问。例如,经过MLLMs对提及的图像和文本高低文启动增强,使得模型能够更深化地理解图像与其高低文之间的语义相关。此外,UniMEL应用LLMs的总结才干,对实体形容启动精简,从而提高了实体检索的准确性和效率。
其次,UniMEL在候选实体集的缩减和重排方面也体现杰出。经过嵌入模型对实体和提及的嵌入示意启动相似度计算,模型能够有效地增加候选实体范围,并经过LLMs启动准确的多选婚配,从而提高了链接的准确性。
最后,试验结果显示,UniMEL在三个地下的多模态实体链接数据集上均到达了最佳功能,验证了其在实践运行中的有效性和优越性。
2. 模型的应战
虽然UniMEL在多模态实体链接义务中体现出弱小的才干,但仍面临一些应战。首先,文本和视觉消息的有效融合仍是一个复杂的疑问,尤其是在消息互补性无余的状况下,如何设计更有效的融合机制是提高模型功能的关键。
其次,虽然LLMs在处置文本消息方面体现杰出,但它们在特定畛域常识的运行上仍有限。如何让LLMs更好地顺应特定畛域的常识,以提高模型在特定义务上的体现,是未来钻研的一个关键方向。
最后,从实体形容中提取有效消息并启动高效处置的疑问也是应战之一。模型虽然经过LLMs的总结才干对形容启动了精简,但如何进一步优化消息提取和处置流程,以提高处置速度和准确性,仍需进一步探求。
论断与未来上班方向
UniMEL框架经过整合LLMs和MLLMs,有效地处置了多模态实体链接义务中的关键疑问,如文本和视觉消息的融合、实体形容的精简和候选实体集的高效处置等。试验结果标明,UniMEL在多个地下数据集上均取得了优秀的功能,验证了其在实践运行中的有效性和前景。
未来的上班方向可以从以下几个方面启动:
本文转载自,作者: