Text2SQL技术 ,行将 人造言语查问转换为结构化查问言语 (SQL)的技术,正在迅速成为数据库查问的一个关键工具。它使得 非技术用户 能够经过 人造言语 与 数据库 启动交互,极大地提高了数据库操作的方便性和效率。
接上去分两局部:干流数据集、干流实战方法(SQLCoder + DB-GPT-Hub),一同来深化了解大模型实战:Text2SQL。
一、干流数据集
什么是Text2SQL数据集? Text2SQL数据集是指一类 专门用于训练Text2SQL (文本到SQL)模型的数据汇合。
Text2SQL数据集理论蕴含 少量的人造言语查问(如疑问或指令)和对应的SQL查问语句 。这些对导致了模型学习的基础,使模型能够学会将人造言语查问转换为SQL查问。
Text2SQL数据集有哪些? Spider、WikiSQL和CHASE等干流Text2SQL数据集提供 人造言语查问与SQL查问对应数据 ,训练和评价模型将人造言语转换为SQL查问的才干。
二、干流实战方法
基于大言语模型的Text2SQL干流实战方法是什么? 重要包括两种: (1)基于Text2SQL模型结合业务启动微调;(2)基于开箱即用的Text2SQL Agent结合业务整合到运行
1、基于SQLCoder模型,结合业务启动微调
第一步:微调前预备(下载模型和数据集)
第二步:模型微调(搜集业务数据、选用微调战略、训练模型、评价模型)
第三步:模型部署与推理
2、基于开箱即用的DB-GPT-Hub,结合业务整合到运行
DB-GPT是一个 开源的AI原生数据运行开发框架 (AI Native> 目标是构建大模型畛域的基础设备,经过开发多模型治理(SMMF)、 成果优化、 RAG框架 以及优化、 Multi-Agents框架单干 AWEL(智能体上班流编排) 等多种技术才干,让围绕数据库构建大模型运行更繁难,更繁难。
DB-GPT-Hub 是一个应用LLMs成功 Text-to-SQL解析的试验名目 ,重要蕴含 数据集搜集、数据预解决、模型选用与构建和微调权重 等步骤,经过这一系列的解决可以在提高Text-to-SQL才干的同时降低模型训练老本,让更多的开发者介入到Text-to-SQL的准确度优化上班当中,最终成功 基于数据库的智能问答才干 ,让用户可以 经过人造言语形容成功复杂数据库的查问操作 等上班。
目前 DB-GPT-Hub 曾经基于多个大模型买通从数据解决、模型SFT训练、预测输入和评价的整个流程, 代码在名目中均可以间接复用 --开箱即用,架构师带你玩转AI
原文链接: