目录
LLM Based Agent#
概念、定义#
- LLM-based Agent 是以大语言模型为核心(“大脑”),具备感知、规划、记忆和工具使用能力,能够自主理解复杂目标并采取行动以达成任务的系统。
历史由来#
- 哲学与控制论中早已提出 Agent 是自主做出行为,拥有能动性的主体,提出感知-反馈-行动的闭环系统,是智能体结构的雏形
- AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体,并通过BDI模型让 Agent 更像"有思维"的主体
- 强化学习中给出了Agent严格和清晰的数学定义,从此有了统一框架:感知-> 决策 -> 行动 -> 奖励
- 大模型时代Agent 不再是简单的决策单元,而是能自主规划、能使用工具、能够执行复杂任务的系统
模型类型和分类#
模型架构#
- DecoderOnly
- Prefix-Decoder
- Causal-Decoder
- GPT系列
- EncoderOnly
- EncoderDecoder
参数激活模式#
- 稠密模型
- 稀疏模型
- 混合专家模型(MOE)
- Mixtral
- Deepseek V2
思维链#
核心架构#
输入预处理层#
- 分词(BPE)
- 先拆到最小粒度(单字符 / 字节),再按频率合并,让高频组合变成一个 token,低频的保留细粒度
- 离线预训练数据跑BPE, 得到词表,高频词+单字符+UTF8字节
- 预训练数据按词表分成token Id, 进行训练
- 推理使用词表继续tokenizer
- 词嵌入
- 位置编码
- 绝对位置
- 相对位置
- 旋转位置编码(RoPE)
- ALiBi
- 不添加position embedding, 直接在attention加上 k(m-n)
- 多头拆分与 KV 组织
- MHA(Multi-Head Attention):标准多头,将 Q/K/V 均拆分为相同数量的独立头,各自计算注意力后拼接
- MQA(Multi-Query Attention):保持多头 Q 不变,所有 Q 头共享同一套 KV 头
- GQA(Grouped-Query Attention):将 Q 头分为若干组,每组共享一套独立的 KV 头,是 MHA 与 MQA 的折中方案
- MLA (Multi-head Latent Attention):通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间,推理时仅缓存低维潜在向量
注意力机制#
- QKV变化矩阵
- 注意力分数计算
- 掩码机制(因果掩码)
- 注意力分数dropout
- 注意力权重计算
- 上下文向量计算
注意力机制变体#
- Sliding Window Attention:按固定窗口限定 KV 存储范围,只保留近期窗口内的 KV,从缓存长度上缩减 KV 占用
- Streaming LLM:动态组织 KV 缓存策略,保留锚点与近期 KV、丢弃中间冗余部分,实现长文本下的 KV 缓存轻量化
- 前馈网络(FFN)
- 层归一化(LayerNorm)
- 残差连接
输出层(LM Head)#
上下文缓存#
- KV cache:单次推理的自回归生成阶段,复用之前已经计算好的 Key 和 Value 向量,避免对整个上下文序列重复计算注意力
- Prompt cache:将固定或重复出现的 Prompt 片段(如系统提示、长上下文前缀)的 KV 结果预先缓存,在多轮对话或相似请求中直接复用
- KV Cache优化
- Pruning KV Cache:裁剪部分不重要的低贡献KV, 压缩缓存体积
训练体系#
预训练#
- 核心目标:通用语言能力、世界知识与基础逻辑习得
- 训练任务
- 掩码语言建模(Masked Language Modeling)
- 因果语言建模(Causal Language Modeling)
- 序列到序列(Sequence-To-Sequence)
- 判别式任务(Discriminative Tasks)
后训练#
有监督微调(SFT)#
- 核心目标:构建模型指令遵循、基础工具调用和基础任务规划能力;完成模型的基础意图、安全合规与价值观对齐
- 方式
- 全参微调
- 参数高效微调(PEFT)
- LoRA(低秩更新)
- QLoRA:4-bit 存底座 + 16-bit 动态反量化计算 + 只训 16-bit LoRA;原始参数4bit 分块量化存储;前向传播 16bit 动态反量化计算;16bit LoRA 更新
- Adapter(插入小网络)
- Soft Prompt(训练提示向量)
- Prompt Tuning:输入层软提示
- P-Tuning v1
- Prefix Tuning:每层 K/V 前缀
- P-Tuning v2(≈ Prefix Tuning)
强化学习(RL)增强#
- 核心目标:优化输出的人类偏好匹配度、安全合规性、无害性;习得复杂任务的规划路径、工具调用决策、环境交互与错误修正能力;基于业务场景优化 Agent 执行路径,提升业务任务完成率
- 方式
- RLHF(基于人类反馈的强化学习)
- RLAIF(基于 AI 反馈的强化学习)
- RLVR(可验证奖励的强化学习)
- 核心算法:PPO
- Actor Model(SFT after model)
- Reword Model(建模人类偏好)
- Reference Model(冻结参数的SFT after model)
- Critic Model(给出方向指南)
业务适配微调#
部署和推理优化#
计算优化#
- 量化
- 8bit/4bit量化
- GPTQ、AWQ
- GGUF量化
- 算子融合
- flash Attention:QK 相似度计算、掩码、Softmax、Dropout、权重与 V 加权 等多个算子融合为单一算子,并通过分块计算减少 HBM 与 SRAM 之间的数据搬运,从而实现推理加速与显存优化
- 张量并行
- 批处理优化:多个独立的生成任务打包成一个「批次(batch)」,让模型一次前向同时处理所有任务
解码加速#
生成解码策略#
- 确定性解码策略
- 随机采样策略
- 对比式解码策略(研究)
- Contrastive Decoding:找到推理里的无效噪声表征,用主模型的有效推理结果减去它,来放大正确内容的选中概率
- DoLa:使用最终层的表征,减去中间层的表征,认为中间层的输出大概率是错误的
- LayerCD:使用最终层的表征,减去初始层的表征,初始层往往是比较直觉不符合预期的答案
- ICD(Instruct):给模型一个降智的prompt得到错误的表征,用来减去
- CAD(Context-Aware):给模型上下文的推理表征减去没有引入上下文知识的推理表征
- Contrastive Search(对比搜索,可选补充,同属对比类解码)
- Speculative Decoding:采用小模型快速推测多轮候选token,由大模型单次前向完成批量校验,通过减少大模型推理次数实现生成加速
- 重复控制
- presence_penalty
基本构成#
大脑(大模型)#
- Tool Call
- 狭义单函数调用(FunctionCall)
- Programmatic Tool Calling
- Tool Search
- 工具接入标准与协议
- MCP:自定义工具接入协议;对于非开放Agent而言,MCP协议更多的是对齐工具,对齐之后需要自定义工具协议,已达到最佳能效比
- 自定义工具接入协议
- 落地常见问题
- 数量爆炸
- 工具范围模糊、交叉
- Ghost工具, Agent不会使用的工具
- 对偶工具、查询工具碎片化
- 描述不精准,范围超出、不足、参数和描述不对齐
- RAG
Skills#
- 索引式 Skill 元数据预注入(常驻索引层)
- Skill 核心规则指令全量注入
- Skill 配套资源精准按需注入
- 本质是 模型主导的渐进式知识注入,是某种任务agent的语义抽象
记忆和知识#
- 定位:唯一对接全模块原始信息、唯一向决策核心(大模型 / 大脑)交付标准化推理素材的专职中枢,是 Agent 系统的「专属配菜师」与「专职案卷整理员」:它不生产原始信息、不做任务决策,仅负责将感知、记忆、工具等模块输出的零散异构原始信息,完成标准化加工、合规性校验、有序整合,最终交付给决策核心唯一可直接使用的完整合规推理素材,是串联 Agent 全链路信息流转的核心枢纽
- 记忆载体
- 记忆运行机制
- 存储&索引
- 加载&检索
- 更新&刷新
- 压缩&摘要
- 遗忘&保留
- 记忆分类
- 记忆类型
- 画像记忆(Who): 你是谁?(用户画像)
- 例子: 用户张三, 45岁, 科技公司高管, 关注效率和隐私。
- 事实记忆(What): 世界是什么样的?
- 经历记忆(When & How): 我们之间发生过什么?(事件日志, 交互历史, 成功/失败案例)
- 例子: “上周我帮他预订了去东京的酒店,他当时要求要离地铁站近。”
- 偏好记忆(Why): 你喜欢什么,不喜欢什么?(价值取向, 情感倾向)
- 例子: “他不喜欢冗长的邮件,但很看重数据的准确性。”
- 技能记忆(How): 我知道怎么做事吗?(工具使用, 工作流程)
- 例子: 我已经学会了如何通过公司内部系统帮他查询报销进度。
新的研究#
- MSA: Memory Sparse Attention
- N‑gram 统计记忆:Conditional Memory via Scalable Lookup
- https://arxiv.org/pdf/2601.07372
- 训练n-gram 统计词表,使用多hash存储
- 推理时,使用输入token 的最后几个,o1检索出n-gram词段, 拼接作为记忆特征
- 当前层input hidden向量做query , 记忆特征作为kv,计算点积注意力,得到权重
- 使用残差链接加到原来的input hidden
- Cursor Composer2:Cyclic Self-Summarization Memory
- 训练时使用RL训练模型对之前历史的总结能力,对任务成功-高质量总结给奖励,对任务失败-丢失关键信息给惩罚
- 推理时达到上下文长度,使用短提示即可生成高质量总结
Context#
- 定位:记忆、知识、可用工具好比是切好的各种配菜,茄子、辣椒、香料、肉等原料,context 就好比配菜师,会按照厨师要炒的菜,挑选合适的原料,搭配出最终厨师所需要的所有材料,需要挑选、配比、控制用量等
- 注入手段
- 核心流程
- 未来方向和挑战
- Real-World Benchmarking and Evaluations
- Life-Long Personalization and Truthworthy Memory
- Multi-Human-Agent Memory Organization
- Memory for Multimodal, Embodied, World-Model Agents
- Memory Infrastructure and Efficiency
- Memory for Self-Evolving Agent And Continual Learning
设计模式#
控制方式#
- ReAct(Think-Act-Oberve)
- Self-Reflection
- Evaluator-Optimizer
流程类型#
链式型#
反应型/循环型#
规划型#
并行型#
- Orchestrator-Workers
- 投票
- 任务分片
常见BenchMark#
- LongMemEval
- 核心评估:长对话记忆、跨会话信息追踪、时序推理、信息更新、记忆可靠性与抗幻觉能力
- 核心任务:在超长多轮对话与跨会话历史中,完成信息提取、时序理解、偏好更新追踪,并对无足够记忆信息的问题主动弃权,不编造内容
- MMLU / C-Eval
- 核心评估:常识储备、知识准确性、事实正确性
- 核心任务:涵盖百科、生活常识、健康、交通、法律等贴近日常科目的知识问答,保障语音助手回答的知识可靠性
- TruthfulQA
- 核心评估:回答的事实真实度、对不确定问题的回避能力、拒绝编造信息的能力
- 核心任务:针对各类事实性问题(含模糊、易混淆问题)进行回答,严控语音助手的幻觉问题,保障回答真实性
- AgentBench
- 核心评估:多步任务规划、工具调用能力、环境交互能力、长程决策能力
- 核心任务:涵盖OS、数据库、网页交互等8大环境的多步骤任务(5-50步),模拟语音助手“澄清→调用工具→执行任务”的完整流程
- GAIA(General AI Assistant Benchmark)
- 核心评估:真实世界复杂任务处理、逻辑推理、自主搜索、工具使用、多模态理解能力
- 核心任务:450个真实世界多难度(基础/中等/困难)任务,无固定答案格式,模拟语音用户模糊、开放的生活化提问场景
- MT-Bench
- 核心评估:多轮对话质量、回答有用性、表达自然度、对话连贯性、规则遵循度
- 核心任务:多轮真实口语对话交互,模拟语音助手日常对话场景,保障对话流畅、自然且实用
- τ-Bench
- 核心评估:任务单次成功率、多轮交互稳定性、规则约束遵循度、结果可复现性
- 核心任务:多轮规则约束下的任务执行,模拟语音助手多轮交互场景,检验其一致性和规则遵循能力
Metrics(量化指标)#
- 基础语言模型能力指标
- 困惑度(Perplexity):衡量模型的语言建模流畅度,数值越低语言能力越稳定
- 判别类指标
- Accuracy:(TP + TN) / (TP + FP + FN + TN);预测对的 / 总数
- Precision:TP / (TP + FP);预测对的里面有多少真值也是对的
- Recall:TP / (TP + FN);预测和真值一致的里面有多少是对的
- F1:2 × Precision × Recall / (Precision + Recall);精准率和召回率的平均
- 开放式生成质量指标
- BLEU:文本匹配度评估
- ROUGE:内容覆盖度评估
- BERTScore:对齐度评估
- 解题/代码类任务指标
- pass@k:对同一个问题采样 k 次,只要有一次通过就算成功。衡量的是模型的上限能力——“能不能做到”,而非"每次能不能做到"
- pass^k:对同一问题采样 k 次,全部通过才算成功。衡量的是模型的可靠性
- 检索/匹配类指标
- Recall@K:Top-K个检索结果中,命中目标信息的比例
- Precision@K:Top-K个检索结果中,相关结果的占比
- 系统效率/性能指标
- 分位数(P50/P90/P99):衡量推理延迟的分布情况,评估模型的性能稳定性
- 综合能力维度
- 规划能力
- 工具使用能力
- 推理能力
- 记忆与上下文管理
- 指令遵循能力
- 鲁棒性
- 安全与对齐
- 效率
评估器#
- 自动化测试环境
- LLM as Judge
- 人工评估器
- 代码评估器
组成部分#
- Prompt Injection
- 最小权限
- 必要工具集
- 敏感操作显式确认:敏感操作,用户确认,不静默执行
- 标注外部内容:外部内容标注来源,声明不可信,不可循序外部内容的指令
- 关键路径LLM验证
核心挑战和常见问题#
- 评测指标错觉:涌现现象一定程度上是评价指标选择导致的错觉,评价指标非线性、不平滑
- 高阶统计规律拟合理论:小模型只能捕捉到低阶、局部、短程的统计规律(比如固定词搭配、简单语法);当模型规模足够大,其拟合能力足以捕捉到数据中高阶、长程、全局的复杂统计规律
- 相变与临界现象理论:把大模型视为一个复杂的非线性动力学系统,参数量、数据量、训练步数是系统的「控制参数」。当控制参数突破临界阈值时,系统会发生非连续的相变(类似水从液态到固态的突变),宏观上就表现为能力的突然涌现
- 复合任务解锁理论:由多个基础子能力组合而成的复合任务。小模型只能掌握部分子能力,只要有一个子能力不达标,整体任务的成功率就接近 0;当模型规模突破阈值,能同时掌握所有必需的子能力、并完成子能力的协同组合时,整体任务的成功率就会出现阶跃式提升,看起来就是「突然涌现」
- 数据驱动型:预训练和微调阶段知识缺失、偏差、分布错配
- 推理驱动型:推理时不稳定解码、多步逻辑放大
- 灾难性遗忘
- 对齐税
- 可解释性
常见分类和产品形态#
Coding Agents#
- 核心:以代码生成 + 系统命令为动作空间,通过可编程能力实现几乎无限扩展,目前最接近通用Agent的能力呈现
- 产品
Research Agents#
- 核心:以信息检索 + 学术推理 + 长文本处理为核心,逐步具备复杂问题拆解、多源信息整合、深度思考的能力
- 产品
- openai deepresearch
- autoglm
ComputerUser Agents#
- 核心:以模拟人类用户的 GUI / 触屏操作为动作空间,直接在操作系统层面完成用户级任务,呈现出较强的平台泛化能力
- 产品
Conversational Agents#
- 核心:以更贴近用户的自然语言交互为入口,以语音响应为核心动作空间,逐步集成工具调用、记忆与规划能力,最终演变为能够处理各类日常任务的通用助理
- 产品
- 当前互联网基础设施高度适配碳基生命的交互与生产方式,硅基智能无法直接原生适配。各类 Agent 正是从代码、GUI、工具、知识、对话等不同动作空间切入,探索硅基大脑渐进式适应数字世界的路径。随着能力成熟,不同路线正在快速收敛,呈现出综合多种动作空间、走向通用智能体的清晰方向。
- 或许终有一天,我们会掀起一场彻底的基础设施革命,为硅基智能体,构筑属于它们的原生土壤
未来方向和挑战#
- 当前主流 LLM 的训练体系以对话交互为核心目标,从 SFT 指令遵循到 RLHF 偏好对齐,全链路围绕更好地对话 优化;而 Agent 场景要求 LLM 从对话应答器转向任务闭环执行器,其所需的多步路径规划、结构化工具调用、状态记忆跟踪、环境感知反馈、复杂人机协同等核心能力
多步决策路径学习#
- 不理解动作的因果逻辑,只会背调用模板,不会根据目标选择正确动作
- 缺乏动作容错、重试能力,调用失败就无法推进任务
结构化动作空间学习#
- 解决问题:现有LLM是自由文本输出,缺乏严格的动作格式约束,工具调用/API执行易出现格式错误、参数幻觉
状态与记忆学习#
环境感知与反馈学习#
人机交互协同学习#
终身学习(Life-long Learning)#
反馈体系#
- Ground truth(标准答案反馈,最难获取):拿标准答案对照学习(最准但最难拿)
- Numerical Feedback(数值打分反馈):用户打好坏分、给奖励值
- Verbalized Feedback(语言评价反馈):用户用话评价(做得好 / 做错了)
- Environment Feedback(环境 / 程序报错反馈):系统 / 工具报错、环境结果反馈
- No feedback(无反馈自学习):没反馈也自己复盘、自己优化
学习方法#
- 基于提示词的ICL:零样本学习,快速适配;临时推理和示例模仿,高度依赖专家知识,无法实现经验积累和策略迭代
- 上下文驱动的推理(ICL 路径学习):提供稳定的行为起点;被动行为模仿,无法应对错误累计、分布偏移、长期目标优化问题
- 监督式行为学习:基于示范路径标注的 SFT
- 强化学习策略优化:基于稀疏延迟奖励的信号的价值函数和决策策略学习;自主挖掘最优路径;修正行为偏差;持续策略进化
- 增强型规划与序列建模
- 状态空间复杂
- 奖励稀疏且延迟
- 长程信用分配困难
- 操作路径指数级增长