RAG · LLM · Prompt · Agent · MCP

RAG 入门：让 AI 先查资料再回答

从 LLM 的限制讲起，串起知识库建设、语义检索、排序、提示词工程、Agent 和 MCP。

01

先懂限制上下文、幻觉、注意力

02

再懂流程建库、检索、生成

03

最后扩展Agent、MCP、工具

RAG

LLM理解和生成

知识库资料与来源

检索找相关片段

提示词约束回答

01

学习路径

由浅入深：先理解问题，再理解方案，最后理解扩展能力。

AI

RAG 入门

1

基础概念

RAG 是什么；LLM 是什么；两者分别负责什么。

2

LLM 限制

上下文有限、会幻觉、长内容专注度下降、顺序不稳定。

3

离线建库

资料准备、清洗、切片、元数据、向量化入库。

4

在线问答

用户提问、语义检索、候选排序、拼上下文、生成答案。

5

能力扩展

提示词工程、多个 LLM 分工、Agent 编排、MCP 连接工具。

懂

概念知道每个词在干什么

看

流程知道一次问答怎么跑

抓

关键切片、排序、提示词

扩

边界Agent 和工具调用

02

RAG 是什么

RAG = Retrieval-Augmented Generation，检索增强生成。

R

先查再答

Retrieval

查

检索

先从知识库中找到和问题相关的资料片段。

RAG
筛选相关资料

Generation

答

生成

LLM 只基于筛出来的资料组织自然语言答案。

≠

不是训练模型知识不写进模型参数

≠

不是全量塞资料只取相关片段

=

动态查资料每次提问实时检索

✓

降低幻觉让答案有依据

03

LLM 是什么

大语言模型擅长理解上下文和生成表达，但不是企业事实库。

LLM

语言引擎

能力

AI

理解与表达

读懂问题意图总结、改写、解释、翻译把零散资料组织成答案

≠

边界

DB

企业事实系统

不会天然知道内部文档不知道最新政策和数据不能保证每句话都有来源

读

读懂上下文理解语义，不是简单关键词

写

生成答案组织语言和结构

缺

缺事实来源私有知识需要外部供给

接

接 RAG把资料交给 LLM 使用

04

LLM 的对话限制

正因为有这些限制，不能把所有知识一次性丢给 LLM。

!

为什么需要 RAG

01

上下文有限

输入窗口有限；资料过多会变慢、变贵、变乱。

02

会有幻觉

资料不足或指令不清时，会编出看似合理的内容。

不能
全量塞
资料

03

专注度下降

长资料和噪声会稀释重点，关键信息被忽略。

04

顺序不稳定

内容位置、相似片段、前后冲突都会影响答案。

少

少量只给必要资料

准

准确优先高相关来源

新

新鲜版本和时间可控

规

规则提示词约束回答边界

05

从限制到方案

RAG 的核心不是让模型记住全部知识，而是让模型按需查资料。

→

方案转化

错误做法

全部塞给 LLM

长文档堆叠，重点被稀释过期资料混入，结果不可信无权限内容可能泄露成本高，速度慢

检索
过滤
排序

RAG 做法

只给相关资料

按问题查资料按相关性排序拼成小上下文让 LLM 基于依据回答

06

后台建库：把资料整理成可检索系统

RAG 不是只有一个问答框，前期知识库整理决定最终效果。

KB

离线流程

资料层

文

产品手册、FAQ、制度、接口文档、案例、流程说明确认来源、版本、时间、权限和适用范围

处理层

洗

清洗重复、过期、广告、目录噪声和格式错误长文档拆成能独立表达意思的小片段

索引层

库

每个切片转成语义向量，写入向量库同时保留元数据，用于过滤、排序和引用来源

质

资料质量决定检索上限

粒

切片粒度决定召回精度

源

元数据决定过滤和引用

库

向量库支持语义检索

07

切片 + 向量化

把长文档拆成小卡片，再给每张卡片标上“语义坐标”。

V

语义检索

原始资料：退款政策

切片 A：退费条件

购买后 7 天内，且未使用核心服务，可以申请全额退款。

切片 B：不可退场景

已开具发票、已交付定制服务、超过合同期限，不支持自动退款。

切片 C：审批路径

超过 5 万元的退款申请，需要客户成功经理和财务双审批。

向量化结果

语义相近，距离更近

用户问“买了 3 天没用能退吗”，即使没有出现“退费条件”这几个字，也能找到切片 A。

08

用户提问时怎么查

召回只是先捞候选，排序 / 重排决定哪些资料真正进入上下文。

S

在线检索

1

问题改写

把口语问题改成适合检索的查询。

2

问题向量化

用户问题也转成语义向量。

3

召回候选

从向量库找语义距离近的片段。

4

排序 / 重排

按相关性、时效、权限、来源可信度重新排序。

5

拼上下文

只把最有用的几段交给 LLM。

排序后的候选资料

1

退款政策 v2026Q2

最相关，版本最新

96

2

大客户审批流程

金额超过 5 万时使用

78

排序看什么

相关性：是否真的回答这个问题时效性：新版本优先，过期资料降权权限：用户不能看的资料先过滤可信度：制度、合同、权威来源优先

09

提示词工程：规定资料怎么用

RAG 找资料，系统提示词规定 LLM 的角色、边界、格式和兜底方式。

P

生成约束

SYSTEM
你是客服助手。只能基于 CONTEXT 回答；资料不足时说“不确定”，不要编造。

CONTEXT
[退款政策 v2026Q2] 购买后 7 天内且未使用核心服务，可全额退款。

USER
客户买了 3 天，还没使用，可以退吗？

提示词工程

角色你是谁

边界只能基于资料

格式结论、理由、来源

安全兜底

不知道就说不确定

冲突说明版本差异

权限不泄露资料

10

复杂任务需要 Agent

当任务不只是“答一句话”，就需要规划、检索、执行、校验等分工。

A

任务编排

规

规划者

拆步骤，决定先查什么、再调用什么工具。

→

查

检索者

使用 RAG 找依据，必要时多轮检索。

→

执

执行者

查订单、建工单、读数据库、调用接口。

R

RAG提供知识入口

P

Prompt规定回答规则

A

Agent负责任务编排

T

Tools执行外部动作

11

MCP：让 Agent 连接工具

MCP 可以理解为模型/Agent 调用外部系统的一套统一连接方式。

M

工具连接

Agent

会规划任务

但真正查数据、改状态、发通知，需要连接业务系统。

MCP
统一工具接口 / 上下文供给 / 动作执行

CRM客户资料

工单创建 / 查询

数据库读数据

文件读文档

搜索查外部信息

消息发送通知

知

RAG查知识

编

Agent编排任务

接

MCP连接工具

做

业务系统完成动作

12

入门之后，要抓住这条主线

LLM 有限制，所以需要 RAG；RAG 把资料找准，再交给 LLM 生成。

✓

核心链路

1

LLM

负责理解和表达，但不是企业知识库。

2

限制

上下文、幻觉、专注度、顺序带来风险。

3

RAG

后台建库；前台检索；排序后拼上下文。

4

Prompt

规定角色、边界、格式、兜底和安全。

5

Agent + MCP

复杂任务用 Agent 编排，用 MCP 连接工具。

一句话总结

RAG 入门：让 AI 先查资料 再回答