LLM Based Agent

概念、定义

  • LLM-based Agent 是以大语言模型为核心(“大脑”),具备感知、规划、记忆和工具使用能力,能够自主理解复杂目标并采取行动以达成任务的系统。

历史由来

  • 哲学与控制论中早已提出 Agent 是自主做出行为,拥有能动性的主体,提出感知-反馈-行动的闭环系统,是智能体结构的雏形
  • AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体,并通过BDI模型让 Agent 更像"有思维"的主体
  • 强化学习中给出了Agent严格和清晰的数学定义,从此有了统一框架:感知-> 决策 -> 行动 -> 奖励
  • 大模型时代Agent 不再是简单的决策单元,而是能自主规划、能使用工具、能够执行复杂任务的系统

模型类型和分类

模型架构

  • DecoderOnly
    • Prefix-Decoder
    • Causal-Decoder
    • GPT系列
  • EncoderOnly
    • BERT
  • EncoderDecoder
    • T5、BART
    • UniLM
    • 多模态Decoder

模态

  • LLM
  • VLM
  • S(Speech)LM
  • Omni

参数激活模式

  • 稠密模型
    • GPT3
    • Llama
    • Deepseek V1
  • 稀疏模型
    • 混合专家模型(MOE)
    • Mixtral
    • Deepseek V2

思维链

    • DeepSeek R1

核心架构

输入预处理层

  • 分词(BPE)
    • 先拆到最小粒度(单字符 / 字节),再按频率合并,让高频组合变成一个 token,低频的保留细粒度
    • 离线预训练数据跑BPE, 得到词表,高频词+单字符+UTF8字节
    • 预训练数据按词表分成token Id, 进行训练
    • 推理使用词表继续tokenizer
  • 词嵌入
    • 转换成词元Id
  • 位置编码
    • 绝对位置
      • 正弦位置编码
      • 可学习绝对位置编码
    • 相对位置
      • 旋转位置编码(RoPE)
        • M-RoPE
        • TM-RoPE
      • ALiBi
        • 不添加position embedding, 直接在attention加上 k(m-n)

Transformer Block

  • 多头拆分与 KV 组织
    • MHA(Multi-Head Attention):标准多头,将 Q/K/V 均拆分为相同数量的独立头,各自计算注意力后拼接
    • MQA(Multi-Query Attention):保持多头 Q 不变,所有 Q 头共享同一套 KV 头
    • GQA(Grouped-Query Attention):将 Q 头分为若干组,每组共享一套独立的 KV 头,是 MHA 与 MQA 的折中方案
    • MLA (Multi-head Latent Attention):通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间,推理时仅缓存低维潜在向量

注意力机制

  • QKV变化矩阵
  • 注意力分数计算
  • 掩码机制(因果掩码)
  • 注意力分数dropout
  • 注意力权重计算
  • 上下文向量计算

注意力机制变体

  • Sliding Window Attention:按固定窗口限定 KV 存储范围,只保留近期窗口内的 KV,从缓存长度上缩减 KV 占用
  • Streaming LLM:动态组织 KV 缓存策略,保留锚点与近期 KV、丢弃中间冗余部分,实现长文本下的 KV 缓存轻量化
  • 前馈网络(FFN)
  • 层归一化(LayerNorm)
  • 残差连接

输出层(LM Head)

上下文缓存

  • KV cache:单次推理的自回归生成阶段,复用之前已经计算好的 Key 和 Value 向量,避免对整个上下文序列重复计算注意力
  • Prompt cache:将固定或重复出现的 Prompt 片段(如系统提示、长上下文前缀)的 KV 结果预先缓存,在多轮对话或相似请求中直接复用
  • KV Cache优化
    • Pruning KV Cache:裁剪部分不重要的低贡献KV, 压缩缓存体积

训练体系

预训练

  • 核心目标:通用语言能力、世界知识与基础逻辑习得
  • 训练任务
    • 掩码语言建模(Masked Language Modeling)
    • 因果语言建模(Causal Language Modeling)
    • 序列到序列(Sequence-To-Sequence)
    • 判别式任务(Discriminative Tasks)

后训练

有监督微调(SFT)

  • 核心目标:构建模型指令遵循、基础工具调用和基础任务规划能力;完成模型的基础意图、安全合规与价值观对齐
  • 方式
    • 全参微调
    • 参数高效微调(PEFT)
      • LoRA(低秩更新)
        • QLoRA:4-bit 存底座 + 16-bit 动态反量化计算 + 只训 16-bit LoRA;原始参数4bit 分块量化存储;前向传播 16bit 动态反量化计算;16bit LoRA 更新
      • Adapter(插入小网络)
      • Soft Prompt(训练提示向量)
        • Prompt Tuning:输入层软提示
        • P-Tuning v1
        • Prefix Tuning:每层 K/V 前缀
        • P-Tuning v2(≈ Prefix Tuning)

强化学习(RL)增强

  • 核心目标:优化输出的人类偏好匹配度、安全合规性、无害性;习得复杂任务的规划路径、工具调用决策、环境交互与错误修正能力;基于业务场景优化 Agent 执行路径,提升业务任务完成率
  • 方式
    • RLHF(基于人类反馈的强化学习)
    • RLAIF(基于 AI 反馈的强化学习)
    • RLVR(可验证奖励的强化学习)
  • 核心算法:PPO
    • Actor Model(SFT after model)
    • Reword Model(建模人类偏好)
    • Reference Model(冻结参数的SFT after model)
    • Critic Model(给出方向指南)

业务适配微调

部署和推理优化

计算优化

  • 量化
    • 8bit/4bit量化
    • GPTQ、AWQ
    • GGUF量化
  • 算子融合
    • flash Attention:QK 相似度计算、掩码、Softmax、Dropout、权重与 V 加权 等多个算子融合为单一算子,并通过分块计算减少 HBM 与 SRAM 之间的数据搬运,从而实现推理加速与显存优化
  • 张量并行
  • 批处理优化:多个独立的生成任务打包成一个「批次(batch)」,让模型一次前向同时处理所有任务

解码加速

生成解码策略

  • 确定性解码策略
    • 贪婪解码
  • 随机采样策略
    • 温度缩放
    • top-k
    • top-p
  • 对比式解码策略(研究)
    • Contrastive Decoding:找到推理里的无效噪声表征,用主模型的有效推理结果减去它,来放大正确内容的选中概率
      • DoLa:使用最终层的表征,减去中间层的表征,认为中间层的输出大概率是错误的
      • LayerCD:使用最终层的表征,减去初始层的表征,初始层往往是比较直觉不符合预期的答案
      • ICD(Instruct):给模型一个降智的prompt得到错误的表征,用来减去
      • CAD(Context-Aware):给模型上下文的推理表征减去没有引入上下文知识的推理表征
    • Contrastive Search(对比搜索,可选补充,同属对比类解码)
  • Speculative Decoding:采用小模型快速推测多轮候选token,由大模型单次前向完成批量校验,通过减少大模型推理次数实现生成加速
  • 重复控制
  • presence_penalty

基本构成

大脑(大模型)

感知

  • 用户输入
    • 文本
    • 语音
    • 图像
    • 视频
    • 文件
    • GUI操作
  • 环境采集
  • 系统事件

工具

  • Tool Call
    • 狭义单函数调用(FunctionCall)
    • Programmatic Tool Calling
  • Tool Search
  • 工具接入标准与协议
    • MCP:自定义工具接入协议;对于非开放Agent而言,MCP协议更多的是对齐工具,对齐之后需要自定义工具协议,已达到最佳能效比
    • 自定义工具接入协议
  • 落地常见问题
    • 数量爆炸
    • 工具范围模糊、交叉
    • Ghost工具, Agent不会使用的工具
    • 对偶工具、查询工具碎片化
    • 描述不精准,范围超出、不足、参数和描述不对齐
  • RAG

Skills

  • 索引式 Skill 元数据预注入(常驻索引层)
  • Skill 核心规则指令全量注入
  • Skill 配套资源精准按需注入
  • 本质是 模型主导的渐进式知识注入,是某种任务agent的语义抽象

记忆和知识

  • 定位:唯一对接全模块原始信息、唯一向决策核心(大模型 / 大脑)交付标准化推理素材的专职中枢,是 Agent 系统的「专属配菜师」与「专职案卷整理员」:它不生产原始信息、不做任务决策,仅负责将感知、记忆、工具等模块输出的零散异构原始信息,完成标准化加工、合规性校验、有序整合,最终交付给决策核心唯一可直接使用的完整合规推理素材,是串联 Agent 全链路信息流转的核心枢纽
  • 记忆载体
    • 外部记忆
    • 内部记忆
      • 模型权重
      • 潜状态
      • k-v cache
  • 记忆运行机制
    • 存储&索引
    • 加载&检索
    • 更新&刷新
    • 压缩&摘要
    • 遗忘&保留
  • 记忆分类
    • 工作记忆
    • 短期记忆
    • 长期记忆
      • for user
      • for assistant
  • 记忆类型
    • 画像记忆(Who): 你是谁?(用户画像)
      • 例子: 用户张三, 45岁, 科技公司高管, 关注效率和隐私。
    • 事实记忆(What): 世界是什么样的?
      • 例子:周一国博闭馆
    • 经历记忆(When & How): 我们之间发生过什么?(事件日志, 交互历史, 成功/失败案例)
      • 例子: “上周我帮他预订了去东京的酒店,他当时要求要离地铁站近。”
    • 偏好记忆(Why): 你喜欢什么,不喜欢什么?(价值取向, 情感倾向)
      • 例子: “他不喜欢冗长的邮件,但很看重数据的准确性。”
    • 技能记忆(How): 我知道怎么做事吗?(工具使用, 工作流程)
      • 例子: 我已经学会了如何通过公司内部系统帮他查询报销进度。

新的研究

Context

  • 定位:记忆、知识、可用工具好比是切好的各种配菜,茄子、辣椒、香料、肉等原料,context 就好比配菜师,会按照厨师要炒的菜,挑选合适的原料,搭配出最终厨师所需要的所有材料,需要挑选、配比、控制用量等
  • 注入手段
  • 核心流程
  • 未来方向和挑战
    • Real-World Benchmarking and Evaluations
    • Life-Long Personalization and Truthworthy Memory
    • Multi-Human-Agent Memory Organization
    • Memory for Multimodal, Embodied, World-Model Agents
    • Memory Infrastructure and Efficiency
    • Memory for Self-Evolving Agent And Continual Learning

设计模式

控制方式

  • ReAct(Think-Act-Oberve)
  • Self-Reflection
  • Evaluator-Optimizer

流程类型

链式型

  • Prompt Chaining
  • Routing

反应型/循环型

规划型

  • Plan-and-Execute

并行型

  • Orchestrator-Workers
  • 投票
  • 任务分片

数量

  • Single-Agent
  • Multi-Agent

评估

常见BenchMark

  • LongMemEval
    • 核心评估:长对话记忆、跨会话信息追踪、时序推理、信息更新、记忆可靠性与抗幻觉能力
    • 核心任务:在超长多轮对话与跨会话历史中,完成信息提取、时序理解、偏好更新追踪,并对无足够记忆信息的问题主动弃权,不编造内容
  • MMLU / C-Eval
    • 核心评估:常识储备、知识准确性、事实正确性
    • 核心任务:涵盖百科、生活常识、健康、交通、法律等贴近日常科目的知识问答,保障语音助手回答的知识可靠性
  • TruthfulQA
    • 核心评估:回答的事实真实度、对不确定问题的回避能力、拒绝编造信息的能力
    • 核心任务:针对各类事实性问题(含模糊、易混淆问题)进行回答,严控语音助手的幻觉问题,保障回答真实性
  • AgentBench
    • 核心评估:多步任务规划、工具调用能力、环境交互能力、长程决策能力
    • 核心任务:涵盖OS、数据库、网页交互等8大环境的多步骤任务(5-50步),模拟语音助手“澄清→调用工具→执行任务”的完整流程
  • GAIA(General AI Assistant Benchmark)
    • 核心评估:真实世界复杂任务处理、逻辑推理、自主搜索、工具使用、多模态理解能力
    • 核心任务:450个真实世界多难度(基础/中等/困难)任务,无固定答案格式,模拟语音用户模糊、开放的生活化提问场景
  • MT-Bench
    • 核心评估:多轮对话质量、回答有用性、表达自然度、对话连贯性、规则遵循度
    • 核心任务:多轮真实口语对话交互,模拟语音助手日常对话场景,保障对话流畅、自然且实用
  • τ-Bench
    • 核心评估:任务单次成功率、多轮交互稳定性、规则约束遵循度、结果可复现性
    • 核心任务:多轮规则约束下的任务执行,模拟语音助手多轮交互场景,检验其一致性和规则遵循能力

Metrics(量化指标)

  • 基础语言模型能力指标
    • 困惑度(Perplexity):衡量模型的语言建模流畅度,数值越低语言能力越稳定
  • 判别类指标
    • Accuracy:(TP + TN) / (TP + FP + FN + TN);预测对的 / 总数
    • Precision:TP / (TP + FP);预测对的里面有多少真值也是对的
    • Recall:TP / (TP + FN);预测和真值一致的里面有多少是对的
    • F1:2 × Precision × Recall / (Precision + Recall);精准率和召回率的平均
  • 开放式生成质量指标
    • BLEU:文本匹配度评估
    • ROUGE:内容覆盖度评估
    • BERTScore:对齐度评估
  • 解题/代码类任务指标
    • pass@k:对同一个问题采样 k 次,只要有一次通过就算成功。衡量的是模型的上限能力——“能不能做到”,而非"每次能不能做到"
    • pass^k:对同一问题采样 k 次,全部通过才算成功。衡量的是模型的可靠性
  • 检索/匹配类指标
    • Recall@K:Top-K个检索结果中,命中目标信息的比例
    • Precision@K:Top-K个检索结果中,相关结果的占比
  • 系统效率/性能指标
    • 分位数(P50/P90/P99):衡量推理延迟的分布情况,评估模型的性能稳定性
  • 综合能力维度
    • 规划能力
    • 工具使用能力
    • 推理能力
    • 记忆与上下文管理
    • 指令遵循能力
    • 鲁棒性
    • 安全与对齐
    • 效率

评估器

  • 自动化测试环境
  • LLM as Judge
  • 人工评估器
  • 代码评估器

组成部分

  • 测试用例集
  • 评分标准
  • 基线结果

安全

  • Prompt Injection
  • 最小权限
  • 必要工具集
  • 敏感操作显式确认:敏感操作,用户确认,不静默执行
  • 标注外部内容:外部内容标注来源,声明不可信,不可循序外部内容的指令
  • 关键路径LLM验证

核心挑战和常见问题

涌现

  • 评测指标错觉:涌现现象一定程度上是评价指标选择导致的错觉,评价指标非线性、不平滑
  • 高阶统计规律拟合理论:小模型只能捕捉到低阶、局部、短程的统计规律(比如固定词搭配、简单语法);当模型规模足够大,其拟合能力足以捕捉到数据中高阶、长程、全局的复杂统计规律
  • 相变与临界现象理论:把大模型视为一个复杂的非线性动力学系统,参数量、数据量、训练步数是系统的「控制参数」。当控制参数突破临界阈值时,系统会发生非连续的相变(类似水从液态到固态的突变),宏观上就表现为能力的突然涌现
  • 复合任务解锁理论:由多个基础子能力组合而成的复合任务。小模型只能掌握部分子能力,只要有一个子能力不达标,整体任务的成功率就接近 0;当模型规模突破阈值,能同时掌握所有必需的子能力、并完成子能力的协同组合时,整体任务的成功率就会出现阶跃式提升,看起来就是「突然涌现」

幻觉

  • 数据驱动型:预训练和微调阶段知识缺失、偏差、分布错配
  • 推理驱动型:推理时不稳定解码、多步逻辑放大
  • 灾难性遗忘
  • 对齐税
  • 可解释性

常见分类和产品形态

Coding Agents

  • 核心:以代码生成 + 系统命令为动作空间,通过可编程能力实现几乎无限扩展,目前最接近通用Agent的能力呈现
  • 产品
    • claude code
    • codex

Research Agents

  • 核心:以信息检索 + 学术推理 + 长文本处理为核心,逐步具备复杂问题拆解、多源信息整合、深度思考的能力
  • 产品
    • openai deepresearch
    • autoglm

ComputerUser Agents

  • 核心:以模拟人类用户的 GUI / 触屏操作为动作空间,直接在操作系统层面完成用户级任务,呈现出较强的平台泛化能力
  • 产品
    • 豆包手机

Conversational Agents

  • 核心:以更贴近用户的自然语言交互为入口,以语音响应为核心动作空间,逐步集成工具调用、记忆与规划能力,最终演变为能够处理各类日常任务的通用助理
  • 产品
    • ChatGPT
    • 豆包

小结

  • 当前互联网基础设施高度适配碳基生命的交互与生产方式,硅基智能无法直接原生适配。各类 Agent 正是从代码、GUI、工具、知识、对话等不同动作空间切入,探索硅基大脑渐进式适应数字世界的路径。随着能力成熟,不同路线正在快速收敛,呈现出综合多种动作空间、走向通用智能体的清晰方向。
  • 或许终有一天,我们会掀起一场彻底的基础设施革命,为硅基智能体,构筑属于它们的原生土壤

未来方向和挑战

  • 当前主流 LLM 的训练体系以对话交互为核心目标,从 SFT 指令遵循到 RLHF 偏好对齐,全链路围绕更好地对话 优化;而 Agent 场景要求 LLM 从对话应答器转向任务闭环执行器,其所需的多步路径规划、结构化工具调用、状态记忆跟踪、环境感知反馈、复杂人机协同等核心能力

多步决策路径学习

  • 不理解动作的因果逻辑,只会背调用模板,不会根据目标选择正确动作
  • 缺乏动作容错、重试能力,调用失败就无法推进任务

结构化动作空间学习

  • 解决问题:现有LLM是自由文本输出,缺乏严格的动作格式约束,工具调用/API执行易出现格式错误、参数幻觉

状态与记忆学习

环境感知与反馈学习

人机交互协同学习

终身学习(Life-long Learning)

反馈体系

  • Ground truth(标准答案反馈,最难获取):拿标准答案对照学习(最准但最难拿)
  • Numerical Feedback(数值打分反馈):用户打好坏分、给奖励值
  • Verbalized Feedback(语言评价反馈):用户用话评价(做得好 / 做错了)
  • Environment Feedback(环境 / 程序报错反馈):系统 / 工具报错、环境结果反馈
  • No feedback(无反馈自学习):没反馈也自己复盘、自己优化

学习方法

  • 基于提示词的ICL:零样本学习,快速适配;临时推理和示例模仿,高度依赖专家知识,无法实现经验积累和策略迭代
  • 上下文驱动的推理(ICL 路径学习):提供稳定的行为起点;被动行为模仿,无法应对错误累计、分布偏移、长期目标优化问题
  • 监督式行为学习:基于示范路径标注的 SFT
  • 强化学习策略优化:基于稀疏延迟奖励的信号的价值函数和决策策略学习;自主挖掘最优路径;修正行为偏差;持续策略进化
  • 增强型规划与序列建模

挑战

  • 状态空间复杂
  • 奖励稀疏且延迟
  • 长程信用分配困难
  • 操作路径指数级增长