Junie's Blog

Agent 核心架构与机制

Agent（智能体）的核心在于让大模型从“被动回答”走向“主动执行”。

规划决策链 (Planning)：Agent 的“大脑”。它要求 Agent 具备任务拆解和路径规划能力。面对复杂问题时，Agent 能够将其分解为多个可执行的子任务，并形成逻辑严密的思考路径（Agentic Workflow）。高级的规划还包括自我反思 (Reflection) 和错误纠正 (Self-Correction) 能力，即在执行失败时动态调整计划。
工具调用 (Tool/Function Calling)：Agent 的“手脚”。大模型本身被局限在纯文本世界，Function Calling 机制允许模型输出结构化指令（如 JSON），从而触发外部 API（如搜索引擎、数据库查询、企业内部系统、代码执行器等），获取实时信息或改变外部状态，实现从“理解需求”到“执行任务”的闭环。
观察与执行 (Observation & Action)：Agent 与环境交互的最小单元。Action 是 Agent 决定调用的具体工具或操作，而 Observation 是环境（或工具）返回的真实结果。Agent 基于当前的 Observation 来决定下一步的 Action。
记忆机制 (Memory)：Agent 的“海马体”，保证在多轮对话或超长任务中的上下文一致性。
短期记忆 (Short-term Memory)：通常依赖于大模型的上下文窗口（Context Window），记录当前的对话历史。
长期记忆 (Long-term Memory)：通常借助向量数据库等外部存储，将历史经验、用户画像或海量文档持久化，在需要时进行召回。
多智能体协同 (Multi-Agent)：当单体 Agent 遇到能力瓶颈时，引入多个具备不同系统提示词（System Prompt）和工具集（Tools）的 Agent 进行分工协作。这涉及到多 Agent 的拓扑结构（如层级式、平级辩论式）、通信路由机制以及 Agent 的注册与生命周期管理。

知识增强与模型控制

大模型存在知识盲区和“幻觉”，需要通过外部技术手段进行外挂增强或内化微调。

检索增强生成 (RAG - Retrieval-Augmented Generation)：为大模型外挂一个“图书馆”。在模型生成回答前，先从外部知识库中检索出与用户问题高度相关的文本片段，并将其作为上下文输入给模型，从而极大减少事实性错误（幻觉）并弥补私有数据缺失。
文本切分与嵌入 (Chunking & Embedding)：RAG 技术的前置核心步骤。Chunking 是将长文档切割成语义连贯的小文本块；Embedding 则是调用模型将这些文本块转化为计算机可理解的高维稠密向量（Vector），以便进行数学上的相似度计算。
向量数据库 (Vector Database)：RAG 的核心基础设施。专门用于高效存储高维向量，并支持通过余弦相似度（Cosine Similarity）等算法，实现毫秒级的 K-NN（K近邻）检索。
Prompt 工程 (Prompt Engineering)：与模型沟通的“咒语学”。不仅是写提示词，更是设计一整套输入策略（如 Few-Shot 小样本提示、Chain-of-Thought 思维链等），以激发模型在特定复杂任务中的逻辑推理能力，提升准确性与鲁棒性。
模型微调与优化 (Fine-tuning)：当 Prompt 工程和 RAG 无法满足特定领域的长尾需求时，对模型权重进行调整。包括全量微调、PEFT/LoRA（参数高效微调）、SFT（监督微调）以及 RLHF（基于人类反馈的强化学习）等，是模型专属化的终极手段。

理论范式与前沿协议

指导 Agent 如何“思考”的顶层设计模式。

ReAct (Reasoning and Acting)：目前最经典的 Agent 范式。它强制大模型在每执行一个动作前，必须先输出一段“思考（Thought）”，然后采取“行动（Action）”，最后获取外部“观察（Observation）”。这种交替进行的模式极大地提升了任务执行的透明度和成功率。
思维树与思维图 (ToT - Tree of Thoughts / GoT - Graph of Thoughts)：比思维链（CoT）更复杂的推理范式。ToT 允许模型在探索解决问题的不同分支时进行评估和回溯（类似树的前序遍历）；GoT 则允许不同的思维路径相互交汇和合并，处理极其复杂的非线性逻辑问题。
Self-Ask：一种拆解复杂问题的策略。模型不直接回答最终问题，而是主动向自己提出一系列中间问题（Follow-up questions），并调用搜索引擎等工具依次解答，最终汇总得出答案。
Reflexion (反思机制)：一种赋予 Agent 持续学习能力的范式。Agent 在完成任务或遇到失败后，会生成一段语言反馈（即反思），将其存储在长期记忆中，以指导未来的行为，避免重复犯错。
MCP 协议链路 (Model Context Protocol)：一种由 Anthropic 等推动的标准化协议。它旨在统一大模型与本地化数据/工具（如本地 IDE、文件系统、甚至其他本地应用）的通信接口，打破云端模型与本地环境的壁垒。

主流开发框架与工程化

将学术理论转化为工业级应用的基础设施。

代码级开发框架：
- LangChain：最早且生态最丰富的 LLM 开发框架，提供大量开箱即用的组件（目前向生态大一统发展）。
- LangGraph：LangChain 推出的状态机框架，支持循环（Cycles）和持久化状态，极其适合构建复杂、可控的 Agentic Workflow。
- LlamaIndex：以“数据”为中心的框架，在构建高级 RAG 管道（Pipeline）方面体验极佳。
- AutoGen / CrewAI：专注于多智能体（Multi-Agent）协作的顶级框架。AutoGen 偏向代码执行与对话路由，CrewAI 偏向角色扮演与流水线协作。
应用级编排平台 (Low-code/No-code)：如 Dify、扣子 (Coze)、AutoGPT。它们提供可视化的界面，让开发者甚至非技术人员可以通过拖拽节点（Node）快速编排工作流，大幅降低了 Agent 的落地门槛。
LLMOps 与评测体系：Agent 走向生产环境的生命线。不仅包括传统 DevOps 的持续集成，还包括对大模型输出的系统观测（Observability，如 LangSmith 提供的 Tracing 链路追踪）、评测数据集的构建、以及针对 Agent 幻觉率、任务完成率的标准化度量。

Agent 相关基础概念

Agent 核心架构与机制

知识增强与模型控制

理论范式与前沿协议

主流开发框架与工程化

评论