随着数据规模的始终增长和业务需求的日益复杂,数据仓库(Data Warehouse)的树立和控制变得越来越关键,数据控制也成为数据仓库树立中无法漠视的一环。其中数仓元数据和目的是对数据的描画和度量,关于数据剖析和决策起着至关关键的作用。但是,由于数据规模宏大且复杂,传统的元数据和目的检索方法往往效率低下,无法满足极速、准确地检索需求。本文将引见如何应用大型言语模型技术在数仓元数据和目的检索控制上启动落地通常,包含技术架构、详细的技术说明以及处置的疑问。
1.通常的背景
在现有的系统工具中,咱们曾经树立过了目的控制系统,元数据系统,ide用户查问平台等多项数据工具。传统平台更多的是工具性的允许,用户有目的输入,系统检索前往结果。这种方式容易构成信息孤岛,由于元数据系统就是元数据信息,目的控制就是目的信息,用户更多的时刻是宿愿可以启动融合,来解答业务上的疑问。
大言语模型是一种基于Transformer模型的人造言语处置技术。它经过大规模的预训练来学习言语模型,而后可以在各种义务上启动微调,以成功更详细的运行。大言语模型具有弱小的语义了解和生成才干,可以依据输入的人造言语文本生成相关的回答。它可以在现有运行系统上充任粘合剂,将不同系统的信息无机地组合起来提供应用户。因此,咱们选择经过大言语模型来处置咱们目前的处置场景,以满足咱们的需求。
2.技术架构
经过与元数据系统和目的控制系统的对接,您可以将须要咨询的内容接入数仓启动存储和控制。在数仓中,语料内容以语料短语和概略信息组成的kv对的方式启动组织,构成初始的索引信息。
索引信息的组织方式可以依据详细的需求和数据结构启动设计。一种经常出现的方式是经常使用表名作为key,表结构作为value。这样可以繁难地依据表名启动索引查问,极速找到相关的语料内容。
另一种方式是经常使用目的称号作为key,目的说明和生成规定描画作为value。这种方式实用于须要依据目的启动咨询的场景。经过将目的信息作为索引的一局部,可以繁难地依据目的称号启动检索,极速找到与目的相关的语料内容。
经过与元数据系统和目的控制系统的对接,您可以失掉到更多的元数据信息和目的定义。这些信息可以作为语料内容的补充说明,丰盛语料的概略信息。同时,您可以将这些信息与语料短语一同存储在数仓中,以便后续的索引接入和咨询检索。
在成功语料组装后,咱们驳回了Milvus向量库来对语料内容启意向量化处置。这种处置方式的好处在于,经过将语料内容转化为向量示意,咱们可以防止明文婚配中的齐全婚配或含糊婚配方式所带来的婚配范围增加疑问。由于用户的言语变动状况十分多样化,间接经常使用明文婚配或许无法涵盖一切变动的状况。
经过向量化处置,咱们将语料内容映射到一个高维向量空间中。在这个向量空间中,每个语料内容都被示意为一个向量,而这些向量之间的距离可以用来权衡它们之间的相似度。这样一来,咱们可以经过向量婚配的方式,找到与用户输入最凑近的语料内容。
向量化处置的另一个好处是可以防止言语上的各种润色词所带来的搅扰。润色词通常是一些描画词、副词或其余言语上的润色性语句,它们在明文婚配中或许会造成婚配结果的偏向。但是经过向量化处置,咱们将语料内容转化为数值向量,这些向量能够更准确地反映语料内容的语义信息,而不受润色词的影响。
在用户咨询的环节中,将对话内容也启意向量化处置,可以用于与结果启动婚配。经过这种方式,咱们可以依据向量的相似度来找到与用户咨询内容最相关的语料内容。
通常状况下,用户在输入咨询内容时,或许只会描画很少的言语,但这些描画往往是重点突出的。因此,经过向量化处置,可以将这些关键信息编码为向量示意。向量化的环节可以经常使用各种技术,将文本转化为数值向量。这样一来,咱们可以经过计算向量之间的相似度,找到与用户输入内容最相似的语料内容。
当找到婚配结果后,可以依据向量分值对结果启动排序处置。向量分值可以反映婚配的水平,较高的分值示意婚配度较好。经过对结果启动排序,咱们可以将婚配度较高的语料内容排在前面,提供应用户更相关的咨询答案。
一旦确定了婚配结果,就可以将这些语料召回,将内容送入大言语模型提供的接口启动组装。模型会依据输入内容生成连接、人造的回答。经过将婚配结果与大言语模型联合,咱们可以将相关的语料内容转化为更详细、详细的回答,提供应用户更专业、准确的咨询服务。
在选用前端环境时,咱们思索了原有的两套系统以及其余综合性平台,但没有找到适合的入口和理由来让用户接触和经常使用这些系统。最后,咱们选择将系统联合到IDE用户查问平台中。关于经常使用SQL查问信息的用户,他们经常须要了解目的的含意、用法以及表的元数据信息。这些用户关键散布在数分、产品、运营、算法等不同的小组。他们是目前最合乎咱们的经常使用场景的切入点。
经过将系统整合到IDE用户查问平台中,咱们可认为这些用户提供一个一致的界面和入口,使他们可以繁难地查问和了解目的的相关信息。用户可以在查问平台中输入SQL语句,并失掉到与目的相关的详细信息,包含目的的定义、计算方法、经常使用示例以及表的元数据信息等。这样一来,用户可以在一个平台上成功查问和了解目的的操作,无需切换多个系统。同时,用户可以经过查问平台失掉到准确、片面的目的信息,协助他们更好地理解和经常使用目的,提高上班效率。
总体框架图:
3.运行效果
经过大言语模型在数仓控制中元数据和目的检索方面的落地通常,咱们处置了以下几个疑问:
提高检索效率:传统的元数据和目的检索方法往往须要复杂的查问语句和繁琐的操作,效率低下。而应用大言语模型技术,用户只有输入人造言语的查征询题,系统可以极速地前往相应的结果,大大提高了检索效率。
优化检索准确性:传统的元数据和目的检索方法容易遭到查问语句表白不准确的影响,造成前往的结果不准确。而大言语模型具有弱小的语义了解和推理才干,可以更好地理解用户的查问用意,提高检索结果的准确性。
提供更好的用户体验:传统的元数据和目的检索方法须要用户具有肯定的技术背景和操作阅历,关于非专业人士来说较为艰巨。而应用大言语模型技术,用户只有输入人造言语的查征询题,无需了解复杂的查问语法和操作步骤,大大提高了用户的经常使用体验。总结:经过大言语模型的技术允许,咱们可以成功更默认、方便的元数据和目的控制。它能够了解人造言语输入,并依据用户需求提供相关的元数据和目的信息。这种默认化的才干使得数据操作和数据剖析愈加高效和准确。经过大言语模型的允许,咱们可以更好地控制和应用数据仓库中的元数据和目的,优化数据控制和数据剖析的水平。宿愿本文对您有所协助,谢谢!
作者简介
■数据平台部-数据仓库团队
■关键担任汽车之家数据仓库树立,数据开发,搜查业务对接上班。