Junie's Blog

Agent 相关基础概念

全文共 1633预计阅读 6 分钟

Agent 核心架构与机制

Agent(智能体)的核心在于让大模型从“被动回答”走向“主动执行”。

  • 规划决策链 (Planning):Agent 的“大脑”。它要求 Agent 具备任务拆解和路径规划能力。面对复杂问题时,Agent 能够将其分解为多个可执行的子任务,并形成逻辑严密的思考路径(Agentic Workflow)。高级的规划还包括自我反思 (Reflection)错误纠正 (Self-Correction) 能力,即在执行失败时动态调整计划。

  • 工具调用 (Tool/Function Calling):Agent 的“手脚”。大模型本身被局限在纯文本世界,Function Calling 机制允许模型输出结构化指令(如 JSON),从而触发外部 API(如搜索引擎、数据库查询、企业内部系统、代码执行器等),获取实时信息或改变外部状态,实现从“理解需求”到“执行任务”的闭环。

  • 观察与执行 (Observation & Action):Agent 与环境交互的最小单元。Action 是 Agent 决定调用的具体工具或操作,而 Observation 是环境(或工具)返回的真实结果。Agent 基于当前的 Observation 来决定下一步的 Action。

  • 记忆机制 (Memory):Agent 的“海马体”,保证在多轮对话或超长任务中的上下文一致性。

  • 短期记忆 (Short-term Memory):通常依赖于大模型的上下文窗口(Context Window),记录当前的对话历史。

  • 长期记忆 (Long-term Memory):通常借助向量数据库等外部存储,将历史经验、用户画像或海量文档持久化,在需要时进行召回。

  • 多智能体协同 (Multi-Agent):当单体 Agent 遇到能力瓶颈时,引入多个具备不同系统提示词(System Prompt)和工具集(Tools)的 Agent 进行分工协作。这涉及到多 Agent 的拓扑结构(如层级式、平级辩论式)、通信路由机制以及 Agent 的注册与生命周期管理。

知识增强与模型控制

大模型存在知识盲区和“幻觉”,需要通过外部技术手段进行外挂增强或内化微调。

  • 检索增强生成 (RAG - Retrieval-Augmented Generation):为大模型外挂一个“图书馆”。在模型生成回答前,先从外部知识库中检索出与用户问题高度相关的文本片段,并将其作为上下文输入给模型,从而极大减少事实性错误(幻觉)并弥补私有数据缺失。
  • 文本切分与嵌入 (Chunking & Embedding):RAG 技术的前置核心步骤。Chunking 是将长文档切割成语义连贯的小文本块;Embedding 则是调用模型将这些文本块转化为计算机可理解的高维稠密向量(Vector),以便进行数学上的相似度计算。
  • 向量数据库 (Vector Database):RAG 的核心基础设施。专门用于高效存储高维向量,并支持通过余弦相似度(Cosine Similarity)等算法,实现毫秒级的 K-NN(K近邻)检索。
  • Prompt 工程 (Prompt Engineering):与模型沟通的“咒语学”。不仅是写提示词,更是设计一整套输入策略(如 Few-Shot 小样本提示、Chain-of-Thought 思维链等),以激发模型在特定复杂任务中的逻辑推理能力,提升准确性与鲁棒性。
  • 模型微调与优化 (Fine-tuning):当 Prompt 工程和 RAG 无法满足特定领域的长尾需求时,对模型权重进行调整。包括全量微调、PEFT/LoRA(参数高效微调)、SFT(监督微调)以及 RLHF(基于人类反馈的强化学习)等,是模型专属化的终极手段。

理论范式与前沿协议

指导 Agent 如何“思考”的顶层设计模式。

  • ReAct (Reasoning and Acting):目前最经典的 Agent 范式。它强制大模型在每执行一个动作前,必须先输出一段“思考(Thought)”,然后采取“行动(Action)”,最后获取外部“观察(Observation)”。这种交替进行的模式极大地提升了任务执行的透明度和成功率。
  • 思维树与思维图 (ToT - Tree of Thoughts / GoT - Graph of Thoughts):比思维链(CoT)更复杂的推理范式。ToT 允许模型在探索解决问题的不同分支时进行评估和回溯(类似树的前序遍历);GoT 则允许不同的思维路径相互交汇和合并,处理极其复杂的非线性逻辑问题。
  • Self-Ask:一种拆解复杂问题的策略。模型不直接回答最终问题,而是主动向自己提出一系列中间问题(Follow-up questions),并调用搜索引擎等工具依次解答,最终汇总得出答案。
  • Reflexion (反思机制):一种赋予 Agent 持续学习能力的范式。Agent 在完成任务或遇到失败后,会生成一段语言反馈(即反思),将其存储在长期记忆中,以指导未来的行为,避免重复犯错。
  • MCP 协议链路 (Model Context Protocol):一种由 Anthropic 等推动的标准化协议。它旨在统一大模型与本地化数据/工具(如本地 IDE、文件系统、甚至其他本地应用)的通信接口,打破云端模型与本地环境的壁垒。

主流开发框架与工程化

将学术理论转化为工业级应用的基础设施。

  • 代码级开发框架

    • LangChain:最早且生态最丰富的 LLM 开发框架,提供大量开箱即用的组件(目前向生态大一统发展)。
    • LangGraph:LangChain 推出的状态机框架,支持循环(Cycles)和持久化状态,极其适合构建复杂、可控的 Agentic Workflow。
    • LlamaIndex:以“数据”为中心的框架,在构建高级 RAG 管道(Pipeline)方面体验极佳。
    • AutoGen / CrewAI:专注于多智能体(Multi-Agent)协作的顶级框架。AutoGen 偏向代码执行与对话路由,CrewAI 偏向角色扮演与流水线协作。
  • 应用级编排平台 (Low-code/No-code):如 Dify、扣子 (Coze)、AutoGPT。它们提供可视化的界面,让开发者甚至非技术人员可以通过拖拽节点(Node)快速编排工作流,大幅降低了 Agent 的落地门槛。

  • LLMOps 与评测体系:Agent 走向生产环境的生命线。不仅包括传统 DevOps 的持续集成,还包括对大模型输出的系统观测(Observability,如 LangSmith 提供的 Tracing 链路追踪)、评测数据集的构建、以及针对 Agent 幻觉率、任务完成率的标准化度量。

评论