将外部数据整合到LLMs中的技术,如检索增强生成(RAG)和微调,获取宽泛运行,但在不同专业畛域有效部署数据增强LLMs面临着严重应战:
数据增强LLM运行中不同查问档次的重要技术总结
微软亚洲钻研院(MSRA)提出了一种 RAG义务分类方法 ,依据所需的外部数据类型和义务的重要 焦点 , 将用户查问分为四个档次 :
四个档次查问的重要焦点
同时,也将外部数据整合到LLMs中的方式归为三种: 高低文、小型模型和微调 ,强调了它们各自的长处、局限性以及它们适宜处置的疑问类型。
将特定畛域数据注入到大型言语模型(LLM)的三种方式: a) 依据查问提取局部畛域数据作为LLM的高低文输入,b) 用特定畛域数据训练一个较小的模型,而后指点后续输入到LLM的外部消息的整合,以及 c) 间接经常使用外部畛域知识对通用的大型言语模型启动微调,使其成为畛域专家模型。
定义:
提供理想消息的经常出现数据集分层
应战:
处置方案:
三种查问-文档对齐类型
关键点:
定义:
应战:
处置方案:
关键点:
推理查问的示例
定义:
应战与处置方案
Prompt优化老本:优化揭示(Prompt)的环节耗时且计算量大。
有限的可解释性:LLMs对揭示的反响不透明,难以分歧了解和验证LLMs对不同揭示的反响。
L4:隐式推理查问
定义:
畛域内数据:或许包括历史问答记载或人工生成的数据。
筹备知识:或许包括片面的公理系统或两边论断,如法律代码或数学证实。
应战与处置方案
逻辑检索:须要更复杂的检索算法来识别与查问逻辑上相关的文本段。
数据无余:外部数据或许没有明白蕴含与查问相关的指点或答案。
离线学习
STaR和LXS:经常使用LLM生成推理理由。
GL、LEAP、RICP:经过失误识别和准则概括来改良义务。
高低文学习 (ICL)
OpenICL:探求不同的传统方法对ICL成果的影响。
Auto-CoT:经过聚类示例来构建更好的允许学习环节的示例。
微调
指令调整:经常使用监视微调来增强LLMs在特定畛域的才干。
适配器调整、前缀调整、揭示调整:经过优化输入前的可训练向量来提高LLMs的功能。
最后:数据增强LLM运行中查问档次的总结
本文转载自 PaperAgent