RAG · LLM · Retrieval · Prompt · Agent · MCP
从 LLM 的对话限制出发,理解 RAG 的建库、检索、排序、提示词和 Agent 扩展。
由浅入深
RAG 解释
从知识库找到相关资料。
把资料放进上下文。
LLM 基于资料回答。
知识不写进模型参数,而是每次回答前动态查资料。
只取与问题相关的片段,降低上下文压力和噪声。
定义
LLM 负责读懂和表达,事实依据来自外部资料。
对话限制
输入窗口有限;资料过多会变慢、变贵、变乱。
资料不足或指令不清时,会生成看似合理的错误内容。
长资料和噪声会稀释重点,关键信息可能被忽略。
位置、相似内容、前后冲突都会影响答案。
处理策略:每次只给最相关、最可信的少量资料。
从限制到方案
长、乱、贵,容易混入过期和无权限资料。
每次只取跟问题最相关的资料片段。
LLM 根据资料生成,必要时引用来源。
检索相关资料 → 放入上下文 → LLM 生成答案。
离线流程
产品手册、FAQ、制度、接口文档、案例、流程说明。
去掉重复、过期、广告、目录噪声和格式错误。
把长文档拆成能独立表达意思的小片段。
来源、版本、时间、部门、权限、适用范围。
把每个片段变成语义向量,写入向量库。
资料质量决定检索质量。
索引构建
购买后 7 天内,且未使用核心服务,可以申请全额退款。
已开具发票、已交付定制服务、超过合同期限,不支持自动退款。
超过 5 万元的退款申请,需要客户成功经理和财务双审批。
过大噪声多,过小语义断;每片覆盖一个局部问题。
文字转换成数字向量;语义相近,距离更近。
在线流程
把口语问题改成更适合检索的查询。
把用户问题也转成语义向量。
从向量库里找语义距离近的片段。
按相关性、时效、权限、来源可信度重新排序。
只把最有用的几段资料交给 LLM。
最相关,且版本最新。
相关,但只在金额超过 5 万时使用。
生成约束
RAG 找资料;提示词规定资料的使用方式。
复杂任务
规划检索、工具调用和结果组织。
使用 RAG 从知识库里找依据,必要时多轮检索。
查订单、建工单、读数据库、调用业务系统接口。
目标驱动流程:规划步骤、选择工具、读取结果、继续推进。
RAG 提供知识入口;Agent 负责任务编排。
MCP
把不同系统的能力包装成模型可调用的工具。
查数据库、读文件、取工单、访问知识系统。
创建工单、查询订单、发送通知、写入结果。
RAG 负责查知识;Agent 负责编排任务;MCP 负责连接工具。
核心链路
上下文有限、会幻觉、专注度和顺序都不稳定。
清洗、切片、向量化、加元数据,再放入向量库。
召回候选,再排序过滤,把最相关内容放进上下文。
Agent 编排多步骤任务;MCP 连接外部工具和系统。
RAG 不是替代 LLM,而是给 LLM 配一套“会查资料的工作台”。