基础概念
RAG 是什么;LLM 是什么;两者分别负责什么。
LLM 限制
上下文有限、会幻觉、长内容专注度下降、顺序不稳定。
离线建库
资料准备、清洗、切片、元数据、向量化入库。
在线问答
用户提问、语义检索、候选排序、拼上下文、生成答案。
能力扩展
提示词工程、多个 LLM 分工、Agent 编排、MCP 连接工具。
从 LLM 的限制讲起,串起知识库建设、语义检索、排序、提示词工程、Agent 和 MCP。
由浅入深:先理解问题,再理解方案,最后理解扩展能力。
RAG 是什么;LLM 是什么;两者分别负责什么。
上下文有限、会幻觉、长内容专注度下降、顺序不稳定。
资料准备、清洗、切片、元数据、向量化入库。
用户提问、语义检索、候选排序、拼上下文、生成答案。
提示词工程、多个 LLM 分工、Agent 编排、MCP 连接工具。
RAG = Retrieval-Augmented Generation,检索增强生成。
先从知识库中找到和问题相关的资料片段。
LLM 只基于筛出来的资料组织自然语言答案。
大语言模型擅长理解上下文和生成表达,但不是企业事实库。
正因为有这些限制,不能把所有知识一次性丢给 LLM。
输入窗口有限;资料过多会变慢、变贵、变乱。
资料不足或指令不清时,会编出看似合理的内容。
长资料和噪声会稀释重点,关键信息被忽略。
内容位置、相似片段、前后冲突都会影响答案。
RAG 的核心不是让模型记住全部知识,而是让模型按需查资料。
RAG 不是只有一个问答框,前期知识库整理决定最终效果。
把长文档拆成小卡片,再给每张卡片标上“语义坐标”。
购买后 7 天内,且未使用核心服务,可以申请全额退款。
已开具发票、已交付定制服务、超过合同期限,不支持自动退款。
超过 5 万元的退款申请,需要客户成功经理和财务双审批。
用户问“买了 3 天没用能退吗”,即使没有出现“退费条件”这几个字,也能找到切片 A。
召回只是先捞候选,排序 / 重排决定哪些资料真正进入上下文。
把口语问题改成适合检索的查询。
用户问题也转成语义向量。
从向量库找语义距离近的片段。
按相关性、时效、权限、来源可信度重新排序。
只把最有用的几段交给 LLM。
最相关,版本最新
金额超过 5 万时使用
RAG 找资料,系统提示词规定 LLM 的角色、边界、格式和兜底方式。
当任务不只是“答一句话”,就需要规划、检索、执行、校验等分工。
拆步骤,决定先查什么、再调用什么工具。
使用 RAG 找依据,必要时多轮检索。
查订单、建工单、读数据库、调用接口。
MCP 可以理解为模型/Agent 调用外部系统的一套统一连接方式。
但真正查数据、改状态、发通知,需要连接业务系统。
LLM 有限制,所以需要 RAG;RAG 把资料找准,再交给 LLM 生成。
负责理解和表达,但不是企业知识库。
上下文、幻觉、专注度、顺序带来风险。
后台建库;前台检索;排序后拼上下文。
规定角色、边界、格式、兜底和安全。
复杂任务用 Agent 编排,用 MCP 连接工具。