Junie's Blog

在人工智能尤其是大语言模型席卷全球的今天，我们经常会感叹于模型那近乎百科全书式的博学。然而，任何深入使用过大模型的人都会发现，这些看似无所不知的智慧存在着明显的短板。它们就像是一位博览群书但与世隔绝的学者，虽然记得住几年前的各种典籍，却对昨天刚发生的新闻一无所知，甚至在面对企业内部的私有文档时，也只能通过“胡编乱造”来掩饰自己的知识盲区。

为了弥补这一短板，RAG（Retrieval-Augmented Generation，检索增强生成） 应运而生。如果说大模型本身是一个大脑，那么 RAG 就是为这个大脑连接上了一个可以实时更新、容量无限的图书馆。

所谓 RAG，本质上是大模型的“开卷考试”

在深入探讨技术细节之前，我们需要先给 RAG 一个直观的定义。通常情况下，大模型的工作方式是“闭卷考试”，它凭借训练阶段记忆在参数里的知识来回答问题。但知识是有时效性的，也是有边界的。

RAG 的核心思想则将这种模式转变为“开卷考试”。当用户提出一个问题时，系统首先并不会急于让模型直接作答，而是先去外部的知识库中搜索，找出与这个问题最相关的几段参考资料。接着，系统会将这些资料连同原始问题一起交给大模型，并嘱咐模型：“请根据我提供的这些参考内容，来给出一个准确的答案。”

这种架构最精妙的地方在于，它避开了重新训练或微调大模型所需的惊人算力成本，仅仅通过改变输入给模型的信息流，就极大地提升了输出的可靠性和专业度。

为什么我们如此需要 RAG

理解了 RAG 的工作模式，我们就不难发现它解决了大模型应用中最令人头疼的几个问题。

首先是幻觉问题的缓解。大模型的一个顽疾是“一本正经地胡说八道”，这在技术上被称为幻觉。通过引入 RAG，模型在回答时有了确凿的参考依据。当模型被要求基于给定的文本回答时，其发散的空间被限制在了文本范围内，这在很大程度上避免了逻辑断层和事实性错误。

其次是数据的时效性与私密性。大模型的训练周期往往长达数月，这意味着它的知识库永远停留在过去的某个节点。对于需要实时信息的场景，比如金融市场分析或者最新的技术文档支持，单纯依赖模型参数是行不通的。与此同时，企业内部的敏感数据也不可能轻易喂给公有云模型进行训练。RAG 提供了一种优雅的方案：数据留在企业本地的数据库里，只有在需要的时候，相关的片段才会被检索出来作为上下文。

最后是成本与灵活性的平衡。微调（Fine-tuning）虽然也能让模型学习新知识，但其过程繁杂且昂贵，而且一旦知识更新，又要重新微调。RAG 则像是一个可以插拔的硬盘，知识库的更新只需要对文档进行增删查改，成本极低，响应速度极快。

文档如何进行巧妙的切分

既然 RAG 的第一步是检索，那么如何准备这些被检索的素材就显得至关重要。这涉及到了一个关键的技术环节：文档切分（Chunking）。

我们不能直接把一整本几百页的书塞给模型，因为目前的模型都有上下文窗口限制，而且一次性输入过多无关信息会产生“信息过载”，干扰模型的判断。因此，我们需要将长篇大论拆解成一个个短小精悍的片段。

这种拆分绝非简单的按字数截断。如果一个段落正好在阐述某个核心观点，而我们恰好从中间切断，那么这个片段就会失去其应有的语义完整性。在实践中，我们通常会采用“重叠切分”的策略，即在每一个片段的结尾处保留一小部分内容作为下一个片段的开头。这种类似“滑窗”的方式，能有效保证上下文的连续性，确保检索到的每一段信息都不会成为语义上的孤岛。

更有深度的切分方法会考虑到文档的物理结构。例如，我们会识别标题、段落、列表甚至是表格。对于 Markdown 或 HTML 格式的文档，利用其天然的标签结构进行分块，往往能比纯字符计数得到更好的效果。切分的本质，是在“检索的精准度”和“信息的完整性”之间寻找一个平衡点。

文本如何化身为向量

在文档切分完毕后，我们会面临一个更核心的问题：计算机如何理解这些文本片段并快速找到与用户问题相关的部分？

传统的关键词搜索（比如我们在电脑里搜文件名）依赖的是字面的完全匹配，但这在面对语义理解时显得力不从心。比如，用户搜索“如何保持身体健康”，传统的搜索可能找不到包含“锻炼身体”或“科学饮食”但没有出现“健康”二字的文档。

为了解决这个问题，我们需要引入 “向量化”（Embedding）技术。简单来说，就是利用一个预训练的深度学习模型，将每一段文本转化成一串长长的数字，也就是向量。

这串数字其实是文本在多维空间中的坐标。在那个由成百上千个维度构成的想象空间里，意思相近的句子会被映射到距离较近的位置，而含义迥异的句子则会散落在空间的两端。当我们把用户的问题也进行向量化之后，检索的过程就变成了一个数学上的距离计算问题。我们只需要寻找空间中离问题最近的那几个文档片段，就能精准地捕捉到语义上的相关性，而不再受限于字面的重合。

向量数据库的使命

有了向量，接下来的挑战是如何存储和查询这些数以百万计的数字序列。传统的 SQL 数据库是为结构化数据设计的，在处理高维向量的相似性搜索时效率极低。于是，向量数据库（Vector Database） 成为了 RAG 架构中的核心基础设施。

向量数据库的核心技术在于“索引”。为了在海量数据中快速找到最接近的向量，它并不进行逐一比对，而是利用了一些精妙的算法，如 HNSW（层次化可导航小世界图）。这种算法就像是在城市中构建了一套立体交通网络，让查询请求能够通过少数几次跳转，就迅速定位到目标区域。

但在实际应用中，仅仅依靠向量搜索是不够的。有时候，用户就是想找某个特定的专有名词或编号，这时候传统的关键词检索（BM25 算法）反而比语义搜索更有效。因此，现在的顶级 RAG 系统大多采用“混合检索”策略：它同时运行向量检索和关键词检索，然后通过重排（Reranking）算法，将两者的结果进行加权融合。

这种混合模式极大地提升了系统的鲁棒性。重排阶段通常还会引入一个更小、更精准的模型，专门负责对初步筛选出的几十个候选片段进行深度比对，选出最能回答问题的三五个精华段落提供给大模型。这种层层筛选的过程，保证了最终输入给模型的信息既精简又高效。

从检索到生成

当最相关的文档片段被检索出来后，RAG 的流程进入了最后的收官阶段。这些片段会被嵌入到一个精心设计的提示词模板（Prompt Template）中。

这个模板通常会这样引导模型：“你是一个专业的助手。请阅读以下参考资料：<此处插入检索到的片段>。根据这些内容，请回答用户的问题：<此处插入用户问题>。如果参考资料中没有相关信息，请直接告知用户你不知道，不要尝试编造。”

此时的大模型，不再是那个仅凭记忆答题的考生，而是一个手握权威参考书的分析师。它会整合多段资料中的信息，进行逻辑上的归纳和表述上的润色，最终输出一个既专业又贴合语境的答案。

在这个过程中，我们还可以要求模型在给出回答的同时，标注出它引用了哪一段参考资料。这种“来源追溯”机制不仅增加了答案的可信度，也让用户在有疑问时可以随时翻阅原始文档进行核实。

总结

回顾整个 RAG 技术链条，从文档的细腻切分，到语义空间的向量映射，再到向量数据库的高效调度，最后到大模型的整合生成，这不仅仅是一套技术组合拳，更是一种全新的知识处理范式。

它打破了大模型“预训练即终结”的局限，让 AI 拥有了持续学习和理解私有知识的能力。在未来，随着 Agent（智能体）技术的进一步成熟，RAG 将不再仅仅是被动地回答问题，它可能会主动去寻找缺失的知识，动态地更新自己的知识库。

理解 RAG，本质上就是理解如何让机器更优雅地利用人类积累的存量知识。在 AI 奔涌向前的浪潮中，这种让模型与现实数据实时共振的技术，无疑将成为通向通用人工智能的重要基石。

对 RAG 技术的理解