RAG Primer原理和使用

RAG · LLM · Retrieval · Prompt · Agent · MCP

RAG 入门:让 AI 先查资料再回答

从 LLM 的对话限制出发,理解 RAG 的建库、检索、排序、提示词和 Agent 扩展。

RAG解释LLM解释上下文限制幻觉注意力顺序切片向量化排序语义检索提示词工程AGENTSMCP
开场不用讲算法,先讲主线:大模型会说话,但它不是企业知识库。因为它有上下文、幻觉、注意力和顺序方面的限制,所以需要 RAG 这套“先查资料,再组织答案”的机制。
Roadmap学习路径

由浅入深

从“会生成”到“会查资料、会调用工具”

1

基础概念

  • RAG 是什么
  • LLM 是什么
2

LLM 限制

  • 上下文
  • 幻觉
  • 注意力与顺序
3

离线建库

  • 资料清洗
  • 切片
  • 向量化入库
4

在线问答

  • 语义检索
  • 排序 / 重排
  • 提示词工程
5

能力扩展

  • Agents 分工
  • MCP 连接工具
这页把路线说清楚。后面每一页都围绕 LLM 限制到 RAG 方案,再到提示词工程和 Agent 的路径推进。
RAG检索增强生成

RAG 解释

RAG = 先检索资料,再增强上下文,最后生成答案

Retrieval

检索

从知识库找到相关资料。

Augmented

增强

把资料放进上下文。

Generation

生成

LLM 基于资料回答。

不是训练模型

知识不写进模型参数,而是每次回答前动态查资料。

不是全量塞资料

只取与问题相关的片段,降低上下文压力和噪声。

这页讲 RAG 的基本定义。先给出完整定义,再强调 RAG 不是训练模型,也不是把全部资料塞给模型。
LLM大语言模型

定义

LLM:理解上下文,生成自然语言

能力

理解上下文,生成答案

  • 读懂用户问题的大意
  • 把零散信息组织成自然语言
  • 按要求改写、总结、解释、翻译
边界

企业资料库或事实系统

  • 不会天然知道最新制度
  • 不知道内部文档和私有数据
  • 不能保证每句话都有来源

定位

LLM 负责读懂和表达,事实依据来自外部资料。

这里不要把 LLM 讲成搜索引擎。LLM 最强的是语言理解和生成,事实来源要靠外部知识、数据库或工具补充。
Limits对话限制

对话限制

LLM 的 4 个对话限制

1

上下文有限

输入窗口有限;资料过多会变慢、变贵、变乱。

2

会有幻觉

资料不足或指令不清时,会生成看似合理的错误内容。

3

专注度下降

长资料和噪声会稀释重点,关键信息可能被忽略。

4

顺序不稳定

位置、相似内容、前后冲突都会影响答案。

处理策略:每次只给最相关、最可信的少量资料。

这一页要明确回应用户大纲:上下文限制、幻觉、专注度、不会稳定关注内容顺序。它们共同解释了为什么不能简单粗暴地把所有文档塞进去。
Why RAG限制带来方案

从限制到方案

RAG 的核心:不是让模型记住全部知识,而是让它按需查资料

全量输入

全部塞给 LLM

长、乱、贵,容易混入过期和无权限资料。

RAG

先查,再答

每次只取跟问题最相关的资料片段。

生成

基于资料回答

LLM 根据资料生成,必要时引用来源。

RAG = 检索增强生成

检索相关资料 → 放入上下文 → LLM 生成答案。

这页把 RAG 的必要性讲出来:不是因为向量数据库酷,而是因为 LLM 的上下文和注意力有限,必须把资料筛小、筛准,再交给模型。
Offline Pipeline后台整理资料

离线流程

资料整理成可检索的知识库

01

收集资料

产品手册、FAQ、制度、接口文档、案例、流程说明。

02

清洗资料

去掉重复、过期、广告、目录噪声和格式错误。

03

切片

把长文档拆成能独立表达意思的小片段。

04

加元数据

来源、版本、时间、部门、权限、适用范围。

05

向量化入库

把每个片段变成语义向量,写入向量库。

资料质量决定检索质量。

这里是“前期准备”。强调 RAG 不只是问答界面,后台知识库准备很关键。元数据也很重要,因为后面排序和权限过滤会用到。
Chunk & Embedding切片和向量化

索引构建

切片 + 向量化:支持语义检索

切片 A:退费条件

购买后 7 天内,且未使用核心服务,可以申请全额退款。

切片 B:不可退场景

已开具发票、已交付定制服务、超过合同期限,不支持自动退款。

切片 C:审批路径

超过 5 万元的退款申请,需要客户成功经理和财务双审批。

切片

粒度适中

过大噪声多,过小语义断;每片覆盖一个局部问题。

向量库

语义坐标

文字转换成数字向量;语义相近,距离更近。

用卡片和地图类比:切片是把书拆成卡片,向量化是给卡片标语义坐标。用户问法不一样,也能找到意思接近的片段。
Online Retrieval检索和排序

在线流程

用户提问后:检索候选,排序后交给 LLM

01

问题改写

把口语问题改成更适合检索的查询。

02

问题向量化

把用户问题也转成语义向量。

03

召回候选

从向量库里找语义距离近的片段。

04

排序 / 重排

按相关性、时效、权限、来源可信度重新排序。

05

拼上下文

只把最有用的几段资料交给 LLM。

这里必须引出“排序”概念。召回只是先捞一批候选,排序/重排才决定哪些片段真正进入上下文。排序质量直接影响最终答案。
Prompt Engineering系统提示词

生成约束

系统提示词规定 LLM 的资料使用规则

RAG 找资料;提示词规定资料的使用方式。

这一页承接用户大纲:给到 LLM 的时候需要系统提示词,由此引出提示词工程。提示词工程重点不是花哨话术,而是角色、边界、格式、引用和兜底。
Agent复杂任务的分工协作

复杂任务

复杂任务:多步骤、多角色、多 LLM 协作

规划者

拆任务

规划检索、工具调用和结果组织。

检索者

查资料

使用 RAG 从知识库里找依据,必要时多轮检索。

执行者

调用工具

查订单、建工单、读数据库、调用业务系统接口。

Agent

目标驱动流程:规划步骤、选择工具、读取结果、继续推进。

和 RAG 的关系

RAG 提供知识入口;Agent 负责任务编排。

不要把 Agent 讲玄。它就是更复杂任务里的规划和编排:可能一个 LLM 规划,一个 LLM 检索,一个 LLM 写答案,也可能调用外部工具。
MCP工具连接

MCP

MCP:让 Agent 稳定连接外部工具和业务系统

统一接口

工具接入规范

把不同系统的能力包装成模型可调用的工具。

上下文供给

读取外部信息

查数据库、读文件、取工单、访问知识系统。

动作执行

调用业务能力

创建工单、查询订单、发送通知、写入结果。

CRM工单数据库搜索文件

RAG 负责查知识;Agent 负责编排任务;MCP 负责连接工具。

这页讲 MCP。它不需要展开协议细节,只要说明 MCP 是让模型/Agent 稳定连接外部工具和系统的接口层。
Takeaway关键链路

核心链路

RAG → LLM 限制 → 切片 → 向量化 → 语义检索 → 排序 → 提示词 → Agent → MCP

限制

LLM 不能吃下全部知识

上下文有限、会幻觉、专注度和顺序都不稳定。

建库

资料要先整理成片段

清洗、切片、向量化、加元数据,再放入向量库。

检索

提问时先找资料

召回候选,再排序过滤,把最相关内容放进上下文。

扩展

Agent + MCP

Agent 编排多步骤任务;MCP 连接外部工具和系统。

RAG 不是替代 LLM,而是给 LLM 配一套“会查资料的工作台”。

收尾不要再加新概念。重复主线:LLM 有限制,所以需要 RAG;RAG 后台建库,前台检索排序,再通过提示词交给 LLM;复杂任务用 Agent。