作者 | Rendy Dalimunthe
编译 | 岳扬
开发一个能够处置实在疑问并给出精准回答的聊天机器人,实属不易。虽然大言语模型已取得严重停顿,但如何将这些模型与常识库联合起来,提供牢靠且高低文消息丰盛的答案,仍是一个待解的难题。
Photo by Google DeepMind[1] on Unsplash[2]
关键疑问通常在于模型的“幻觉”现象——即发生失误或不存在的消息,以及模型无了解消息间巧妙相关时的高低文掌握才干无余。虽然有一些人尝试构建弱小稳如泰山的问答系统,但往往模型给出的答案不尽人意,即使它们接入的是内容片面的常识库,也难以成功。
RAG 技术可以将生成的模型照应与事实环球的数据咨询起来,从而有效缩小了“幻觉”现象,但要准确回答复杂疑问仍是应战重重。 即使常识库中其实蕴含了相关消息,只是不那么显而易见,用户还是常会遇到诸如“xx主题在检索文本中未被明白提及”的回复。在这种状况下,GraphRAG(Graph Retrieval-Augmented Generation)技术就派上用场了,它经过应用结构化的常识图谱,极大地提高了模型提供准确且具备丰盛高低文消息答案的才干。
01 RAG:检索与生成的桥梁
RAG 技术是将基于检索的方法和基于生成的方法的好处联合起来的关键一步。面对用户提问,RAG 能够从宏大的语料库中检索到相关的文档或段落,并据此生成答案。因此,咱们可以确信,基于实据数据生成的文本既消息丰盛又切合高低文。
但是,当遇到更复杂的疑问,尤其是那些须要了解实体间相关,而这些相关在检索到的文档中并未明白表述时,RAG 的体现就不尽善尽美了。 例如,面对“17 世纪的迷信成就如何影响 20 世纪初的物理学?”这样的疑问,RAG 系统往往难以给出满意的答案。(关于这个疑问的例子,咱们稍后还会进一步讨论。)
02 GraphRAG:施展常识图谱的潜能
正如 Microsoft Research 博客[3]初次提出 GraphRAG 时概述的那样,GraphRAG 的指标是经过整合基于常识图谱的检索方法来克制前文形容的这些限度。 简而言之,它将常识库中的非结构化文本转换成结构化的常识图谱,在这个常识图谱中,节点示意实体(比如人物、地点、概念等),而边则示意实体间的相互相关。这种结构化的形式使得模型能够更有效地了解和运用不同消息间的外在咨询。
Photo by Alina Grubnyak[4] on Unsplash[2]
接上去,让咱们更粗疏地讨论 GraphRAG 的概念,并经过与 RAG 的对比,以易于了解的形式来提醒其上班原理。
首先,咱们想象一个由各种迷信和历史文献中的句子导致的常识库,内容如下:
在 RAG 系统中,上述句子将作为非结构化文本存储。例如,当征询“17 世纪的迷信成就如何影响 20 世纪初的物理学?”时,假设文档的内容和检索品质不能将 17 世纪的影响与 20 世纪早期的物理学间接咨询起来,系统就会堕入困境。它或者只能提供如下答案:“牛顿在 17 世纪的钻研上班为现代物理学的大局部内容奠定了基础。阿尔伯特·爱因斯坦在 20 世纪初提出了相对论。”这是由于 RAG 能够检索到相关消息,但却难以明晰地阐释 17 世纪物理学对 20 世纪初物理学开展的详细影响。
与此同样,GraphRAG 将这些文本转换成结构化的常识图谱。常识图谱展现了不同实体间的相互相关,并经过一套规定来组织消息,这样就能提醒出那些不那么清楚的咨询。
借助 GraphRAG 系统,先前的常识库将转变为一组节点和边的相关,详细如下。
面对“17世纪的迷信成就如何影响20世纪初的物理学?”这一疑问,基于 GraphRAG 的检索器能够追溯从牛顿的切实到爱因斯坦的成就之间的演化,明晰地展现了 17 世纪物理学对 20 世纪初物理学开展的深入影响。这种结构化的消息检索使得答案不只内容丰盛,而且准确到位:“牛顿在 17 世纪提出的静止定律和万有引力定律,为经典力学的开展奠定了基石。这些基本原理对阿尔伯特·爱因斯坦在 20 世纪初开展相对论发生了关键影响,相对论进一步拓展了咱们对宇宙空间和期间的意识。”
GraphRAG 经过运用结构化常识图谱,优化了模型处置复杂疑问的才干,并经过提供明白定义的相关作为答案的基础,降落了发生“幻觉”的或者性。 这种做法实质上使得 GraphRAG 在开发更牢靠、更自动的对话式问答系统时愈加有效。
将非结构化的常识库转化为结构化的常识图谱,使得 GraphRAG 能够深化了解消息外延,从而使言语模型能够依据高低文生成准确失当的回答。这是对话式 AI 朝着更先进、更牢靠的聊天机器人系统开展的关键一步。
但是,正如 GraphRAG 带来的其余好处一样,它也面临着一些应战。
首先,构建常识图谱是一个极端复杂的环节。 将无序的常识库转换为结构化的常识图谱须要精细的实体提取(entity extraction)和相关识别方法(identification of relationships),而这些方法的计算老本或者十分高昂。
其次,可扩展性疑问也随之发生。 随着常识库规模的扩展,常识图谱的复杂性也在参与。假设常识图谱变得过大,以致于在运转时难以遍历,那么或者会带来可扩展性疑问。关于大规模常识图谱,优化常识图谱检索算法将成为一个关键应战。
再者,常识图谱的保养老本也是一个疑问。 常识图谱须要依据新消息和现有数据的变动始终降级。在一些很或者经常变动的畛域,这或者会成为一项十分低廉的上班,尤其是在技术或医学畛域。这象征着,虽然结果或者很有前景,但要常年坚持常识图谱的正确性和相关性,还须要付出少量的致力。
虽然如此,GraphRAG 仍有望为未来的对话式 AI Agents 带来了更高的自动水平、牢靠性和高低文感知才干。更多的钻研和开发上班可以协助处置与 GraphRAG 相关的一些艰巨,从而为构建更先进、更自动的人工自动驱动的处置打算铺平路线。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
Rendy Dalimunthe
Specialist in conversational AI, target="_blank">
[2]
[3]
[4]
原文链接: