企业宣传,产品推广,广告招商,广告投放联系seowdb

从检索增强

“检索,一种环球性的难题”

检索技术或许说搜查技术(只管检索与搜查有必定的区别)不时是一个环球级的难题,检索技术可以说从人类发生就曾经开局了;只不过那时的检索不叫检索,叫找物品,只不过到二十一世纪之后,随着互联网技术的开展,数据检索成为了一个关键手腕。

而当天咱们就来谈谈检索技术。

检索

为什么题目是从RAG看检索技术?

RAG技术是在之前的文章中不仅一次性的引见过,RAG是大模型技术的补充,大模型的表如今某种水平上依赖于RAG,而RAG最**的一点就是愈加高效和准确的检索。

但检索技术却不是由于RAG技术才发生的,在RAG技术发生之前,检索技术用的最多的应该就是搜查引擎了。

从配置的角度登程,互联网技术的开展特意是移动互联网时代的来临,互联网每天都会发生少量的数据,而怎样把这些数据分门别类,让须要的人极速从冗杂的数据中找到有用的物品,这是一个值得思索的疑问。

而从技术的角度来说,在互联网技术发生之前,数据或许说资料的治理方式关键是以纸质文档为主,而互联网发生之后,数据关键以文件的方式存储。

但做过技术的人都知道,文件存储是一个费时又费劲的物品;因此,这时一项平凡的发明发生了——那就是数据库系统。

刚开局的数据库系统是依照二维相关结构构建的相关数据库系统,到如今也在少量的经常使用,比如经常出现的mysql和oracle等。

经常使用数据库的好处是什么?

好处就是速度快,数据了如指掌,操作简双繁难。

而随着技术的开展,岂但数据量越来越多,数据方式和格局也越来越复杂,特意是非结构化数据的迸发式增长;因此,非结构化数据的存储需求越来越大,而且也发生了很多非结构化数据存储两边件,比如mongodb和redis等。

而数据存储是一方面,数据的检索也是一方面;相关型数据库的好处是了如指掌,存储也繁难,但相关型数据库的数据检索就没有构想中的那么弱小了。相关型数据库只能启动一些繁难的字符婚配或含糊查问,一旦触及到复杂查问就无能为力了。

而这时搜查两边件就发生了,比如ES——ElasticSearch,它就是嵌入了分词的配置,依据某种算法成功完整语句的拆分,使得搜查才干相比传统相关型数据库大大增强。

但雷同的是,ES的搜查才干依然有限,它们只能依托纯正的字符婚配启动检索;比如说让你去图书馆找本书,疑问的人只能依照书名去找,而懂的人就可以找到相似的。

而且面对事实环球中复杂的各种相关,繁难的字符婚配显然无法满足咱们的需求;因此,一种基于语义查问的方式就发生了。

什么是语义查问?

比如说,我说帮我搜查一下孙悟空;这时传统的搜查方式只能搜查到与孙悟空三个字相关的内容;而与齐天大圣,猴哥,弼马温相关的数据就无法准确查问了。

而有了语义剖析的配置之后,就知道孙悟空,齐天大圣,弼马温,巨匠兄等等是一团体,这时就可以把与此相关的内容所有查问进去,而这就是RAG须要干的事件。

这也是为什么说,大模型常识库的重点是不是模型,也不是常识库,而是数据的准确检索。大模型常识库的好坏,是由检索才干所选择的,而不是由大模型选择的。

这也是在昨天对于RAG技术的文章中所说的,怎样优化数据的召回品质,召回数据的品质越高,大模型的生功成果就越好。

嵌入模型的语义剖析才干越强,转化的向量数据成果越好,最终检索到的数据品质也就越高。

原文链接:​ ​​ ​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender