大模型RAG系统的生长之路 RAG系统的四层天梯

第一章：为什么要给大模型喂"额外营养"？

构想一下，你有一个超级自动的AI助手，它简直一无所知。但当你问它"当天的股市行情如何？"或许"最新的新冠病毒变种有哪些症状？"，它却一脸茫然。这就是大言语模型（LLM）的现状 - 常识博大但不够新颖。

这就是为什么咱们须要给LLM喂点"额外营养"，也就是外部数据。这个环节，专业点说叫"检索增强生成"（RAG）。

首先，让咱们聊聊为什么要这么做：

1.1 让AI变得更"专业"

LLM只管懂得多，但在专业畛域或许还不如一个刚毕业的在校生。构想你在开发一个法律AI助手，假设它连最新的法律订正都不知道，那不就成了法庭上的笑话吗？

举个例子：假定有一个新的环保法规**。传统LLM或许齐全不知道，但经常使用RAG的系统可以迅速学习并运行这个新规则。这就是外部数据的威力 - 它能让AI极速成为各行各业的"专家"。

1.2 坚持AI的"时兴度"

AI环球开展太快了，昨天的资讯当天就成了旧闻。假设你的AI还在议论2020年的事件，那就真的out了。

比如，假设你问AI："最新的AI打破是什么？"，传统LLM或许还在谈GPT-3，而经常使用RAG的系统曾经能讨论GPT-4、DALL-E 3等最新停顿。

1.3 缩小AI的"空想症"

LLM有时刻会自信满满地胡言乱语，这在AI圈叫"幻觉"。给它喂点靠谱的外部数据，就能大大缩小这种状况。

假设你在做医疗诊断，AI胡乱猜想症状可是会出人命的。经常使用RAG，AI可以基于最新的医学钻研来给出倡导，大大提高了牢靠性。

听起来很美妙，对吧？然而，成功起来可没那么容易。这就像是给大象装上显微镜 - 既要坚持大象的力气，又要施展显微镜的精准。

首先，你得预备海量的高品质数据。咱们说的不是几个 word，而是至少笼罩业务场景的数据量。数据从哪来？爬虫、购置、协作失掉，方法多得是。但要小心，爬虫爬着爬着，搞不好律师函就来了。所以，找专业的数据团队来处置这事儿准没错。

而后，你得建设一个超级高效的检索系统。这就像是给AI配了个24小时不睡觉的图书治理员，随时预备找出最相关的消息。

最后，还得想方法让AI"了解"这些新消息。这可不是便捷的复制粘贴，而是要让AI真正排汇这些常识，并在回答疑问时能灵敏运用。

听起来很难？确实如此。在各个专业畛域部署这样的系统，面临的应战可不少：

给LLM喂"额外营养"的后劲是渺小的，但应战也不小。谁能处置这些疑问，谁就或许成为下一个AI畛域的巨头。

第二章：RAG不是一刀切 - 四个档次的查问分类

在下面，咱们了解了为什么要给大模型喂"额外营养"。然而，就像人类的饮食须要依据不同状况调整一样，RAG系统也须要依据不同类型的查问来调整其战略。

假设你正在开发一个全能型AI助手。有时刻用户或许会问"2023年诺贝尔文学奖得主是谁？"，有时刻或许会问"为什么量子计算机比传统计算机快？"。这两种疑问显然须要不同的处置形式，对吧。

基于这种思索，论文将用户查问分为四个档次。让咱们逐个深化讨论：

2.1 显式理想查问

这是最间接的查问类型。用户问的是明白的、可以间接在数据中找到答案的疑问。

例如："东京奥运会是哪一年举行的？"

关于这类查问，RAG系统的义务相对便捷：

成功这类查问的关键在于高效的消息检索系统。你或许须要经常使用倒排索引、向量检索等技术来减速查找环节。

2.2 隐式理想查问

这类查问只管也是关于理想的，但答案并不能间接在繁多数据点中找到，须要综合多个消息。

例如："哪个国度在过去十年的奥运会上取得的金牌总数最多？"

处置这类查问的应战在于：

这就须要RAG系统具有必定的数据处置和便捷推理才干。你或许须要成功一些轻量级的数据剖析配置，如聚合、排序等。

2.3 可解释推理查问

这类查问不只须要理想，还须要解释或推理。答案通常须要基于某些明白的规则或指南。

例如："依据现行法律，一个18岁的人可以在美国哪些州非法购置酒精饮料？"

处置这类查问的难点在于：

这种查问或许须要你成功一些规则引擎或决策树，以模拟人类的推理环节。

2.4 暗藏推理查问

这是最复杂的查问类型。答案不只须要少量的背景常识，还须要复杂的推理环节，而这些推理环节或许并不明白。

例如："思索到环球气象变动，未来20年内北极熊的生活前景如何？"

处置这类查问的应战在于：

成功这类查问的RAG系统或许须要联合多种AI技术，如因果推理模型、情形模拟等。你或许还须要成功一种"思想链"（Chain of Thought）机制，让AI能够逐渐推理并解释其推理环节。

总结一下，这四个档次的查问分类方法让咱们能够更有针对性地设计和优化RAG系统。从便捷的理想检索到复杂的推理义务，每一层都有其共同的应战和处置打算。

在实践运行中，一个成熟的RAG系统往往须要能够处置一切这四个档次的查问。这就像是在训练一个全能静止员 - 既要能短跑，又要能马拉松，还得会游泳和举重。听起来很难？确实如此。然而，正是这种应战让AI钻研如此激动人心。

第三章：深化RAG的四个档次 - 从定义到处置打算

咱们概述了RAG义务的四个档次。如今，让咱们卷起袖子，深化每个档次的技术细节。预备好你的工程师思想，咱们要开局真正的技术探求了！

3.1 显式理想查问

定义和特色：这是最基础的查问类型，答案间接存在于外部数据中。特色是查问和答案之间存在间接的文本婚配相关。

例如：Query: "谁发明了电话？" Answer: "亚历山大·格雷厄姆·贝尔发明了电话。"

相关数据集：

这些数据集蕴含少量的问答对，十分适宜训练和评价处置显式理想查问的模型。

关键应战：

最有效的处置技术：

代码示例（经常使用Haystack框架）：

from haystack import Pipelinefrom haystack.nodes import BM25Retriever, FARMReaderretriever = BM25Retriever(document_store)reader = FARMReader("deepset/roberta-base-squad2")pipe = Pipeline()pipe.add_node(compnotallow=retriever,, inputs=["Query"])pipe.add_node(compnotallow=reader,, inputs=["Retriever"])result = pipe.run(query="谁发明了电话？")print(result['answers'][0].answer)

3.2 隐式理想查问

定义和特色：这类查问的答案须要综合多个消息源。特色是须要启动便捷的推理或计算。

例如：Query: "哪个国度在2020年奥运会上取得的金牌最多？"Answer: 须要检索多个国度的金牌数据，并启动比拟。

相关数据集：

这些数据集蕴含须要多跳推理的疑问，很适宜训练处置隐式理想查问的模型。

关键应战：

最有效的处置技术：

代码示例（经常使用DeepsetAI的Haystack框架）：

from haystack import Pipelinefrom haystack.nodes import BM25Retriever, FARMReader, JoinDocumentsretriever = BM25Retriever(document_store)reader = FARMReader("deepset/roberta-base-squad2")joiner = JoinDocuments(join_mode="concatenate")pipe = Pipeline()pipe.add_node(compnotallow=retriever,, inputs=["Query"])pipe.add_node(compnotallow=joiner,, inputs=["Retriever"])pipe.add_node(compnotallow=reader,, inputs=["Joiner"])result = pipe.run(query="哪个国度在2020年奥运会上取得的金牌最多？")print(result['answers'][0].answer)

3.3 可解释推理查问

定义和特色：这类查问须要基于特定规则或指南启动推理。特色是须要运行畛域常识和逻辑推理。

例如：Query: "依据现行法律，一个年支出5万美元的独身人士在加利福尼亚州须要交纳多少所得税？"Answer: 须要检索税法，了解税率表，并启动相应计算。

相关数据集：

这些数据集蕴含须要逻辑推理的疑问，适宜训练处置可解释推理查问的模型。

关键应战：

最有效的处置技术：

代码示例（经常使用GPT-3启动Chain-of-Thought推理）：

import openaiopenai.api_key = "your-api-key"prompt = """Query: 依据现行法律，一个年支出5万美元的独身人士在加利福尼亚州须要交纳多少所得税？Let's approach this step-by-step:1) First, we need to know the California state income tax brackets for single filers.2) Then, we'll calculate the tax for each bracket up to $50,000.3) Finally, we'll sum up the tax amounts.Step 1: California tax brackets for single filers (2021):- 1% on the first $8,932 of taxable income- 2% on taxable income between $8,933 and $21,175- 4% on taxable income between $21,176 and $33,421- 6% on taxable income between $33,422 and $46,394- 8% on taxable income between $46,395 and $50,000Step 2: Calculate tax for each bracket:- 1% of $8,932 = $89.32- 2% of ($21,175 - $8,933) = $244.84- 4% of ($33,421 - $21,176) = $489.80- 6% of ($46,394 - $33,422) = $778.32- 8% of ($50,000 - $46,395) = $288.40Step 3: Sum up the tax amounts:$89.32 + $244.84 + $489.80 + $778.32 + $288.40 = $1,890.68Therefore, a single person with an annual income of $50,000 in California would owe approximately $1,890.68 in state income tax.Note: This is a simplified calculation and doesn't account for deductions, credits, or other factors that might affect the actual tax liability."""response = openai.Completion.create(engine="gpt4",prompt=prompt,max_tokens=500)print(response.choices[0].text.strip())

暗藏推理查问

定义和特色：这是最复杂的查问类型，须要少量背景常识和复杂的推理环节。特色是推理环节往往不是明白的，须要模型自行发现和运行隐含的常识和相关。

例如：Query: "思索到环球气象变动和人类优惠，预测未来50年内亚马逊雨林的变动。"Answer: 须要综合气象迷信、生态学、社会学等多个畛域的常识，启动复杂的因果推理和预测。

相关数据集：

这些数据集蕴含须要宽泛常识和复杂推理的疑问，适宜训练处置暗藏推理查问的模型。

关键应战：

最有效的处置技术：

代码示例（经常使用Hugging Face的Transformers库和GPT-4）：

 transformers  pipeline openaisummarizer  pipeline model# 假定咱们有多个相关文档documents  "气象变动正在减速亚马逊雨林的退步...""人类优惠，如砍伐和农业扩张，正在要挟亚马逊雨林...""一些钻研标明，亚马逊雨林或许会在未来几十年内到达临界点..."summaries  summarizerdoc max_length min_length do_sample  doc  documents# 经常使用GPT-3启动最终的综合剖析openaiapi_key  prompt  fresponse  openaiCompletionpromptpromptmax_tokensresponsechoicesstrip

以上的例子展现了如何联合经常使用预训练模型启动文本总结，而后经常使用更弱小的言语模型（如GPT-4）启动复杂的推理和预测。经过深化了解这四个档次的查问，咱们可以看到RAG系统面临的应战是多方面的，从便捷的消息检索到复杂的常识整合和推理。每一个档次都须要特定的技术和方法来处置其共同的应战。

在实践运行中，一个成熟的RAG系统往往须要能够处置一切这四个档次的查问。这就要求咱们始终翻新和改良现有的技术，同时也为AI钻研开拓了宽广的前景。

第四章：数据与LLM的三种"联姻"形式

在前面的内容中，咱们讨论了RAG系统如何处置不同档次的查问。如今，让咱们转向一个愈加基本的疑问：假设失掉到数据后，如何将外部数据与LLM联合起来？论文提出了三种关键的方法，每种方法都有其共同的长处和应战。让咱们逐个深化讨论。

4.1 高低文方法（Context）

这种方法就像是给LLM一个即时的"记忆补丁"。每次征询LLM时，咱们都会同时提供相关的高低文消息。

上班原理：

长处：

应战：

成功示例：

 transformers  AutoTokenizer AutoModelForCausalLM torchtokenizer  AutoTokenizerfrom_pretrainedmodel  AutoModelForCausalLMfrom_pretraineddef get_contextquery:# 这里应该是你的检索逻辑 query  context  get_contextqueryinput_text  finput_ids  tokenizerencodeinput_text return_tensorsoutput  modelgenerateinput_ids max_length num_return_sequences no_repeat_ngram_sizeresponse  tokenizerdecodeoutput skip_special_tokensresponse

4.2 小模型方法（Small model）

这种方法就像是给LLM装备了一个专业的"助手"。咱们训练一个小型模型来处置特定义务，如消息检索或常识整合，而后将这个小模型的输入提供应LLM。

上班原理：

长处：

应战：

成功示例：

 transformers  AutoTokenizer AutoModel AutoModelForCausalLM torch# 假定这是咱们的小模型，用于生成查问的向量示意retriever_tokenizer  AutoTokenizerfrom_pretrainedretriever_model  AutoModelfrom_pretrainedlm_tokenizer  AutoTokenizerfrom_pretrainedlm_model  AutoModelForCausalLMfrom_pretraineddef get_query_embeddingquery:inputs  retriever_tokenizerquery return_tensors padding truncatinotallow torchno_grad:outputs  retriever_modelinputs outputslast_hidden_statemeandimquery  query_embedding  get_query_embeddingquery# 在实践运行中，咱们会用这个嵌入来检索相关文档# 这里咱们便捷地假定咱们失掉了一些相关消息retrieved_info  "量子计算是应用量子力学现象启动计算的技术..."input_text  f"基于以下消息：{retrieved_info}\n回答疑问：{query}"input_ids  lm_tokenizerencodeinput_text return_tensorsoutput  lm_modelgenerateinput_ids max_length num_return_sequences no_repeat_ngram_sizeresponse  lm_tokenizerdecodeoutput skip_special_tokensresponse

4.3 微调方法（Fine-tuning）

这种方法就像是给LLM启动"专业培训"。咱们经常使用特定畛域的数据对预训练的LLM进后退一步的训练，使其能够更好地处置特定类型的义务或畛域常识。

上班原理：

长处：

应战：

成功示例：

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainerimport torchfrom, truncatinotallow=True)tokenized_datasets =,num_train_epochs=3,per_device_train_batch_size=8,per_device_eval_batch_size=8,warmup_steps=500,weight_decay=0.01,logging_dir="./logs",)# 创立Trainertrainer = Trainer(model=model,args=training_args,train_dataset=tokenized_datasets["train"],eval_dataset=tokenized_datasets["test"],)# 开局微调trainer.train()# 经常使用微调后的模型query = "什么是量子纠缠？"input_ids = tokenizer.encode(query, return_tensors="pt")output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)response = tokenizer.decode(output[0], skip_special_tokens=True)print(response)

每种方法都有其实用的场景：

在实践运行中，这三种方法往往是联合经常使用的。例如，咱们或许会先对LLM启动畛域微调，而后在经常使用时还配合高低文方法提供最新消息。或许，咱们或许会经常使用经过微调的小模型来启动检索，而后将检索结果作为高低文提供应关键的LLM。

选用哪种方法，或如何组合这些方法，取决于详细的运行需求、可用资源、以及对模型性能、效率和灵敏性的掂量。

第五章：RAG的艺术 - 从通常到通常的整合之道

咱们将把前面所学的一切概念串联起来，看看如何在实践中运用这些常识。系好安保带，咱们开局这段激动人心的旅程吧！

5.1 三种整合形式的利害掂量

还记得咱们讨论过的三种将外部数据整合到LLM中的形式吗？让咱们再深化讨论一下它们各自的优缺陷和实用场景。

长处：

- 灵敏性拉满：想换数据就换，LLM齐全不用动- 透明度高：咱们分明地知道模型用了哪些额外消息

局限性：

- 高低文长度有限：就像塞鸭子，塞太多LLM也消化不了- 检索品质选择生死：渣滓进渣滓出，检索不好全盘皆输

实用场景：

- 须要频繁降级常识库的运行- 对结果可解释性要求高的场景

长处：

- 专业性强：可认为特定义务定制"小助手"- 模块化设计：想换就换，主LLM不受影响

局限性：

- 训练老本高：又要预备数据又要训练，累死团体- 集成难度大：让"小助手"和LLM无缝配合不是易事

实用场景：

- 有特定复杂义务须要处置的运行- 计算资源有限，不可频繁调用大型LLM的状况

长处：

- 性能王者：在特定畛域可以到达最佳体现- 推理效率高：不须要额外的检索步骤

局限性：

- 计算老本高：微调大模型，没个几千块GPU别想了- 灵敏性降低：一旦微调，或许会影响其余畛域的体现

实用场景：

- 特定畛域的专业运行- 有少量高品质畛域数据可用的状况

5.2 四个查问档次的技术打算

如今，让咱们看看如何针对不同复杂度的查问选用适宜的技术打算。

from haystack import Pipelinefrom haystack.nodes import BM25Retriever, FARMReaderretriever = BM25Retriever(document_store)reader = FARMReader("deepset/roberta-base-squad2")pipe = Pipeline()pipe.add_node(compnotallow=retriever,, inputs=["Query"])pipe.add_node(compnotallow=reader,, inputs=["Retriever"])result = pipe.run(query="谁发明了电话？")print(result['answers'][0].answer)

代码示例（迭代RAG）：

def iterative_rag(query, max_iteratinotallow=3):context = ""for i in range(max_iterations):result = pipe.run(query=query + " " + context)new_info = result['answers'][0].answercontext += new_infoif "完整回答" in new_info:breakreturn contextfinal_answer = iterative_rag("比拟太阳系中最大和最小的行星")print(final_answer)

- 迭代RAG：多轮检索，每轮基于之前的结果继续深化- 图/树RAG：构建常识图谱，启动多跳推理- RAG+SQL：联合结构化数据查问，处置复杂的数值计算

代码示例（思想链揭示）：

prompt = """疑问：一个水箱可以在6小时内装满水。如今曾经装了2小时，还剩下3/4没装满。请问这个水箱实践上须要多长期间才干装满？让咱们一步步思索：1) 首先，咱们知道反常状况下，水箱须要6小古装满。2) 如今曾经装了2小时，还剩3/4没装满。3) 这象征着2小时内只装满了1/4的水箱。4) 假设2小古装满1/4，那么装满整个水箱须要的期间是：2小时 * 4 = 8小时因此，这个水箱实践上须要8小时才干装满。能否须要我进一步解释这个推理环节？"""response = openai.Completion.create(engine="gpt4", prompt=prompt, max_tokens=150)print(response.choices[0].text.strip())

- 揭示调优：设计特定的揭示模板，疏导LLM启动推理- 思想链揭示：让LLM像人类一样，一步步写出推理环节

代码示例（微调）：

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainermodel_name = "gpt2"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 预备特定畛域的数据集train_dataset = ...# 你的训练数据eval_dataset = ...# 你的评价数据training_args = TrainingArguments(output_dir="./results", num_train_epochs=3, per_device_train_batch_size=8)trainer = Trainer(model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset)trainer.train()# 经常使用微调后的模型query = "预测未来5年的环球经济趋向"input_ids = tokenizer.encode(query, return_tensors="pt")output = model.generate(input_ids, max_length=200)print(tokenizer.decode(output[0], skip_special_tokens=True))

- 离线学习：预先学习畛域常识，构建专门的常识库- 高低文学习：灵活选用最相关的高低文启动学习- 微调：在特定畛域数据上微调LLM

5.3 知己知彼，百战不殆

在开发RAG运行之前，咱们须要做的第一件事是什么？没错，就是深化了解咱们要处置的疑问。这就像是要打仗前先要了解敌情一样关键。

只要充沛了解了这些起因，咱们才干选用最适宜的技术打算。记住，没有一种方法是万能的，关键是找到最适宜你特定需求的方法。

5.4 大杂烩才是真正的美味

在实践运行中，咱们经常会遇到各种类型的查问混同在一同的状况。这就像是要做一道大杂烩，须要各种食材和调料的完美配合。

咱们须要设计一个自动的路由系统，能够识别不同类型的查问，并将其导向最适宜的处置模块。这个系统或许看起来像这样：

def query_router(query):if is_simple_fact_query(query):return basic_rag(query)elif is_implicit_fact_query(query):return iterative_rag(query)elif is_interpretable_reasoning_query(query):return chain_of_thought_prompting(query)elif is_hidden_reasoning_query(query):return fine_tuned_model(query)else:return fallback_method(query)def process_query(query):response = query_router(query)return post_process(response)# 经常使用示例user_query = "请解释量子纠缠的原理及其在量子计算中的运行"answer = process_query(user_query)print(answer)

这个路由系统就像是一个阅历丰盛的总厨，知道每种原料应该如何处置，最终做出一道美味的大餐。

结语

构建一个低劣的RAG系统，就像是在启动一场复杂的厨艺较量。你须要了解每种原料（数据）的个性，把握各种烹饪技巧（技术方法），并且要有足够的创意来应答各种应战。

记住，通常和通常雷同关键。多尝试，多总结，你就会发现RAG的魅力所在。谁知道呢，或许兴许下一个扭转AI环球的打破，就来自于你的灵感。

论文原文：

《Retrieval Augmented Generation (RAG) and Beyond:A Comprehensive Survey on How to Make your LLMs use External>本文转载自，作者：

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#Sora #系统 #RAG #紫东太初 #盘古 #多模态 #清言 #LaMDA #人工自动 #开源大模型 #ChatGPT #GPT #Bard #AIGC运行 #混元 #模型 #AI #AIGC #日日新 #悟道 #4 #通义千问 #云雀 #Copilot #孟子 #大模型 #文心一言 #Agent #OpenAI #言犀