学完这份 PPT,能建立四个基本理解:为什么需要 RAG、RAG 如何工作、怎么评估效果、Agent / MCP 分别解决什么问题。
上下文、幻觉、私有知识、长上下文注意力。
离线建库、在线检索、排序、提示词生成。
Agent 负责流程,MCP 负责连接工具。
在企业知识问答里,答案必须有依据、能追溯、能控权限。
把知识库变成可检索、可引用、可更新的外部记忆。
MCP 负责把外部工具和数据规范地接进来。
先理解模型边界,再理解 RAG、Agent 和 MCP 各自解决什么问题。
理解它擅长语言生成,但不是事实系统。
上下文有限、幻觉、私有知识缺失、注意力漂移。
先检索知识库,再把资料交给 LLM 生成。
资料准备、切片、向量化、检索、排序、引用。
复杂任务要规划和工具连接,不只是问答。
先把模型边界说清楚,后面引出 RAG 才自然。
在企业知识问答场景里,裸用模型通常不利于新鲜度、权限、成本和可追溯。
输入再长也有上限;越长越贵、越慢、越容易混乱。
内部知识、最新政策、业务数据通常不在模型参数里。
资料不足、冲突或提示不清时,可能编造细节。
重点可能被噪声稀释,中间信息尤其容易被忽略。
RAG 不是任何场景都必须上;文档多、更新快、要权限和引用时才更有价值。
长上下文会拉高推理时间,用户体验变差。
每次都读大量文档,token 成本不可控。
无关资料越多,模型越难抓住真正依据。
不该给用户看的资料可能进入上下文。
资料多、权限复杂时,把知识管理问题转移给模型,效果不可控。
先用检索和排序选出少量相关资料。
让 LLM 在受控上下文里生成。
RAG 不是一个模型功能,而是一条产品链路。
用户通常用口语表达,不会精确匹配文档标题。
系统先找到可用资料,并保留来源。
回答不只是顺口,还要能追溯和复核。
答案来自可信资料。
多数知识更新可先更新知识库,不必依赖重训模型。
能展示引用来源。
检索前先过滤用户权限。
把这句话讲清楚,基本就进入 RAG 的门了。
去重、去噪、统一格式。
长文档拆成小知识块。
建立向量、关键词或混合索引,并保存元数据。
按问题找候选片段。
筛出最相关、最可信资料。
LLM 基于上下文回答。
这部分最容易被忽略,却往往最先决定知识库问答的效果上限。
切片粒度、重叠、元数据,会直接影响召回质量。
购买后 7 天内,且未使用核心服务,可以申请全额退款。
已开票、已交付定制服务、超过合同期限,不支持自动退款。
超过 5 万元的退款,需要客户成功经理和财务双审批。
召回解决“找得到”,排序解决“排得对”。
识别意图,必要时改写查询。
向量检索、关键词检索或混合检索。
按权限、业务线、版本、时间过滤;强权限可在索引或检索阶段提前做。
把最相关、最新、可信的片段排前面。
控制长度,去重,保留来源。
检索负责找证据,提示词负责使用规则。
你是谁,服务什么场景。
只能基于资料,不够就说不确定。
结论、理由、来源、下一步。
权限控制主要在数据层/检索层做,Prompt 是最后一层约束。
不能只说“效果不错”,要能拆成检索、答案、体验、治理。
离线看 Hit@K、Recall、问题集覆盖;先确认资料找没找到。
看相关性、时效、权限、来源可信度,避免过期资料进入上下文。
看 groundedness / faithfulness、引用命中率、拒答是否稳妥。
看延迟、成本、失败率、满意度、人工转接率和线上反馈。
把失败原因拆到资料、检索、生成和产品机制,才方便定位和迭代。
文档过期、重复、格式混乱、缺少负责人,导致检索出来的证据就错。
切片粒度不合适、同义词没处理、只用向量导致编号/条款匹配差。
上下文太长、提示词边界弱、冲突资料没处理,都会导致幻觉。
建立资料负责人、版本规则、过期提醒和灰度发布。
混合检索、重排、查询改写、权限过滤、上下文去重。
展示来源、允许反馈、低置信度转人工、持续评测。
不要为了显得高级而上 Agent;先判断任务是否真的需要动态决策。
判断任务目标,拆成检索、调用工具、确认结果等步骤。
用 RAG 查政策、流程、历史案例,给后续动作提供依据。
调用工具查订单、建工单、写系统、发送通知,并检查结果。
路径确定、风险高、规则清晰时,workflow + RAG 往往更稳。
需要规划、试错、跨系统调用,并根据中间结果决定下一步。
这是扩展理解点。可以记住一句:MCP 让 AI 应用用统一方式连接工具、数据和提示模板。
Host 承载用户和模型;Client 负责按 MCP 协议连接 Server。
按这个结构梳理方案,既有业务视角,也能覆盖技术链路。
长上下文解决“读得下”,RAG 解决“找得到”,微调更适合风格/格式/任务适配,Agent 解决“做得到”;MCP 是连接协议。
用户是谁?问什么问题?需要结论、解释、引用,还是要执行动作?
资料从哪里来,谁负责,版本和权限怎么管,是否有评测问题集?
切片、元数据、向量检索、关键词检索、混合检索、重排和 Top-K。
系统提示词规定只能基于资料回答,输出来源,不确定就兜底。
看召回、排序、groundedness、引用、延迟、成本、权限和用户反馈。