The Anatomy of an LLM-Based Agent

概念、定义

LLM-based Agent 是以大语言模型为核心(“大脑”)，具备感知、规划、记忆和工具使用能力，能够自主理解复杂目标并采取行动以达成任务的系统。

历史由来

哲学与控制论中早已提出 Agent 是自主做出行为，拥有能动性的主体，提出感知-反馈-行动的闭环系统，是智能体结构的雏形
AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体，并通过BDI模型让 Agent 更像"有思维"的主体
强化学习中给出了Agent严格和清晰的数学定义，从此有了统一框架：感知-> 决策 -> 行动 -> 奖励
大模型时代Agent 不再是简单的决策单元，而是能自主规划、能使用工具、能够执行复杂任务的系统

基本构成

大脑（大模型）

模型类型和分类

模型架构

DecoderOnly
- Prefix-Decoder
  - UniLM
  - 多模态Decoder
- Causal-Decoder
  - GPT系列
EncoderOnly
- BERT
EncoderDecoder
- T5、BART
Diffusion Model
- MDLM、D3LM
- 扩散语言模型：通过前向加噪与反向去噪生成文本，非自回归并行生成

模态

LLM
VLM
S(Speech)LM
Omni

参数激活模式

稠密模型
- GPT3
- Llama
稀疏模型
- 混合专家模型（MOE）
  - Mixtral
  - Deepseek V2

思维链

有
- DeepSeek R1
无
- Deepseek V1
动态

核心架构

输入预处理层

分词（BPE）
- BPE（Byte Pair Encoding）：先拆到最小粒度（单字符 / 字节），再按频率合并，让高频组合变成一个 token，低频的保留细粒度
- 具体做法
  - 离线预训练数据跑BPE, 得到词表，高频词+单字符+UTF8字节
  - 预训练数据按词表分成token Id, 进行训练
  - 推理使用词表继续tokenizer
转换成词元Id
词嵌入
位置编码
- 绝对位置
  - 正弦位置编码
  - 可学习绝对位置编码
- 相对位置
  - 旋转位置编码（RoPE）
    - RoPE
    - M-RoPE
    - TM-RoPE
  - ALiBi
    - 不添加position embedding, 直接在attention加上 k(m-n)

Transformer Block

多头拆分与 KV 组织
- MHA(Multi-Head Attention)：标准多头，将 Q/K/V 均拆分为相同数量的独立头，各自计算注意力后拼接
- MQA(Multi-Query Attention)：保持多头 Q 不变，所有 Q 头共享同一套 KV 头
- GQA(Grouped-Query Attention)：将 Q 头分为若干组，每组共享一套独立的 KV 头，是 MHA 与 MQA 的折中方案
- MLA (Multi-head Latent Attention)：通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间，推理时仅缓存低维潜在向量

注意力机制

QKV变化矩阵
注意力分数计算
掩码机制（因果掩码）
注意力分数dropout
注意力权重计算
上下文向量计算

注意力机制变体

Sliding Window Attention：按固定窗口限定 KV 存储范围，只保留近期窗口内的 KV，从缓存长度上缩减 KV 占用
Streaming LLM：动态组织 KV 缓存策略，保留锚点与近期 KV、丢弃中间冗余部分，实现长文本下的 KV 缓存轻量化
前馈网络（FFN）
层归一化（LayerNorm）
残差连接

输出层（LM Head）

训练体系

预训练
- 核心目标：通用语言能力、世界知识与基础逻辑习得
- 训练任务
  - 掩码语言建模(Masked Language Modeling)
  - 因果语言建模(Causal Language Modeling)
  - 序列到序列(Sequence-To-Sequence)
  - 判别式任务(Discriminative Tasks)
后训练
- 有监督微调(SFT)
  - 核心目标
    - 构建模型指令遵循、基础工具调用和基础任务规划能力
    - 完成模型的基础意图、安全合规与价值观对齐
    - 业务适配微调
  - 方式
    - 全参微调
    - 参数高效微调(PEFT)
      - Adapter(插入小网络)
      - LoRA(低秩更新)
        
        LoRA
        
        QLoRA
        
        4-bit 存底座 + 16-bit 动态反量化计算 + 只训16-bit LoRA
        
        原始参数4bit 分块量化存储
        
        前向传播16bit 动态反量化计算
        
        16bit LoRA 更新
      - Soft Prompt(训练提示向量)
        
        输入层软提示
        
        Prompt Tuning
        
        P-Tuning v1
        
        每层 K/V 前缀
        
        Prefix Tuning
        
        P-Tuning v2 (≈ Prefix Tuning)
- 强化学习(RL)增强
  - 核心目标
    - 优化输出的人类偏好匹配度、安全合规性、无害性
    - 习得复杂任务的规划路径、工具调用决策、环境交互与错误修正能力
    - 基于业务场景优化Agent执行路径，提升业务任务完成率
  - 方式
    - 有独立奖励模型(RM)
      - RLHF（基于人类反馈的强化学习）
      - RLAIF（基于AI反馈的强化学习）
      - RLVR（可验证奖励的强化学习）
      - 核心算法：PPO
        
        Actor Model(SFT after model)
        
        Reword Model(建模人类偏好)
        
        Reference Model(冻结参数的SFT after model)
        
        Critic Model(给出方向指南)
    - 无独立奖励模型(直接偏好对齐)
      - DPO
      - GRPO

部署和推理优化

量化
- 8bit/4bit量化
- GPTQ、AWQ
- GGUF量化
推理加速
- 上下文缓存
  - KV cache
    - 单次推理的自回归生成阶段，复用之前已经计算好的 Key 和 Value 向量，避免对整个上下文序列重复计算注意力
  - Prompt cache
    - 将固定或重复出现的 Prompt 片段（如系统提示、长上下文前缀）的 KV 结果预先缓存，在多轮对话或相似请求中直接复用
- 计算优化
  - 算子融合
    - flash Attention
      - QK 相似度计算、掩码、Softmax、Dropout、权重与 V 加权等多个算子融合为单一算子，并通过分块计算减少 HBM 与 SRAM 之间的数据搬运，从而实现推理加速与显存优化
  - 张量并行
- 解码加速
  - Speculative Decoding
    - 采用小模型快速推测多轮候选token，由大模型单次前向完成批量校验，通过减少大模型推理次数实现生成加速
- 批处理优化
  - 多个独立的生成任务打包成一个「批次（batch）」，让模型一次前向同时处理所有任务
生成解码策略
- 确定性解码策略
  - 贪婪解码
- 随机采样策略
  - 温度缩放
  - top-k
  - top-p
- 对比式解码策略(研究)
  - 对比解码(Contrastive Decoding)
    - 找到推理里的无效噪声表征，用主模型的有效推理结果减去它，来放大正确内容的选中概率
    - DoLa：使用最终层的表征，减去中间层的表征，认为中间层的输出大概率是错误的
    - LayerCD：使用最终层的表征，减去初始层的表征，初始层往往是比较直觉不符合预期的答案
    - ICD(Instruct)：给模型一个降智的prompt得到错误的表征，用来减去
    - CAD(Context-Aware)：给模型上下文的推理表征减去没有引入上下文知识的推理表征
  - Contrastive Search（对比搜索，可选补充，同属对比类解码）
- 重复控制
  - presence_penalty

核心挑战和常见问题

涌现

评测指标错觉：涌现现象一定程度上是评价指标选择导致的错觉，评价指标非线性、不平滑
高阶统计规律拟合理论：小模型只能捕捉到低阶、局部、短程的统计规律（比如固定词搭配、简单语法）；当模型规模足够大，其拟合能力足以捕捉到数据中高阶、长程、全局的复杂统计规律
相变与临界现象理论：把大模型视为一个复杂的非线性动力学系统，参数量、数据量、训练步数是系统的「控制参数」。当控制参数突破临界阈值时，系统会发生非连续的相变（类似水从液态到固态的突变），宏观上就表现为能力的突然涌现
复合任务解锁理论：由多个基础子能力组合而成的复合任务。小模型只能掌握部分子能力，只要有一个子能力不达标，整体任务的成功率就接近 0；当模型规模突破阈值，能同时掌握所有必需的子能力、并完成子能力的协同组合时，整体任务的成功率就会出现阶跃式提升，看起来就是「突然涌现」

幻觉

数据驱动型：预训练和微调阶段知识缺失、偏差、分布错配
推理驱动型：推理时不稳定解码、多步逻辑放大

灾难性遗忘

对齐税

可解释性

感知

用户输入
- 文本
- 语音
- 图像
- 视频
- 文件
- GUI操作
环境采集
- 系统事件

工具

Tool Call
- 狭义单函数调用（FunctionCall）
- Programmatic Tool Calling
- Tool Search
工具接入标准与协议
- MCP：自定义工具接入协议；对于非开放Agent而言，MCP协议更多的是对齐工具，对齐之后需要自定义工具协议，已达到最佳能效比
- 自定义工具接入协议
落地常见问题
- 数量爆炸
- 工具范围模糊、交叉
- Ghost工具, Agent不会使用的工具
- 对偶工具、查询工具碎片化
- 描述不精准，范围超出、不足、参数和描述不对齐

记忆和知识

记忆载体

外部记忆
- 工作记忆
- 短期记忆
- 长期记忆
  - 面向用户（for user）
    - 画像记忆(Who)：你是谁？(用户画像)
      - 例子：用户张三，45岁，科技公司高管，关注效率和隐私。
    - 事实记忆(What)：世界是什么样的？
      - 例子：周一国博闭馆
    - 经历记忆(When & How)：我们之间发生过什么？(事件日志，交互历史，成功/失败案例)
      - 例子：“上周我帮他预订了去东京的酒店，他当时要求要离地铁站近。”
    - 偏好记忆(Why)：你喜欢什么，不喜欢什么？(价值取向，情感倾向)
      - 例子：“他不喜欢冗长的邮件，但很看重数据的准确性。”
  - 面向助手（for assistant）
    - 技能记忆(How)：我知道怎么做事情？(工具使用，工作流程)
      - 例子：我已经学会了如何通过公司内部系统帮他查询报销进度。
内部记忆
- 模型权重
- 潜状态
- k-v cache

记忆运行机制

存储&索引
加载&检索
更新&刷新
压缩&摘要
遗忘&保留

知识注入手段

RAG（检索增强生成）
- FileLoader 文件加载
- Chunk拆分
- 语义嵌入（句子嵌入）
- 向量数据库
  - 元数据
- 检索算法
  - 稠密检索：基于embeddings向量的向量相似度 → 余弦相似度
  - 稀疏检索：基于vocab稀疏表示 → BM25
- rerank（重排序）
Skills（技能注入）
- 本质：模型主导的渐进式知识注入，是某种任务agent的语义抽象
- 核心流程
  - 索引式 Skill 元数据预注入（常驻索引层）
  - Skill核心规则短指令全量注入
  - Skill配套资源精准按需注入
基于Tool Call的分阶段任务知识披露

未来方向和挑战

Real-World Benchmarking and Evaluations（真实世界基准测试与评估）
Life-Long Personalization and Trustworthy Memory（终身个性化与可信记忆）
Multi-Human-Agent Memory Organization（多人类-多智能体记忆组织）
Memory for Multimodal, Embodied, World-Model Agents（多模态、具身、世界模型智能体的记忆）
Memory Infrastructure and Efficiency（记忆基础设施与效率）
Memory for Self-Evolving Agent And Continual Learning（自进化智能体与持续学习的记忆）

新的研究方向

MSA: Memory Sparse Attention（记忆稀疏注意力）
- 论文链接
  - https://github.com/Evv1d/blob/main/paper/MSA_Memory_Sparse_Attention
  - https://arxiv.org/abs/2504.02732
- 核心机制
  - 训练时：学习检索路由和超长上下文
  - 推理前：所有文档过一遍模型，计算出它们的路由键和KV，并做KV压缩
  - 推理时：将query弹出路由查询，用相似度找到最匹配top-k文档，拼接到KV做注意力推理
N-gram 统计记忆：Conditional Memory via Scalable Lookup（基于可扩展查找的条件记忆）
- 论文链接：https://arxiv.org/pdf/2601.07372
- 核心机制
  - 训练时：统计n-gram词表，使用多hash存储
  - 推理时：使用输入token的最后几个，检索出n-gram词段，拼接作为记忆特征
  - 用当前层input hidden向量做query，记忆特征作为kv，计算点积注意力得到权重
  - 使用残差连接加到原来的input hidden
Cursor Composer2: Cyclic Self-Summarization Memory（循环自总结记忆）
- 核心机制
  - 训练时：使用RL训练模型对之前历史的总结能力，对任务成功-高质量总结给予奖励，对任务失败-丢失关键信息给予惩罚
  - 推理时：达到上下文长度时，使用短提示即可生成高质量总结

Harness 工程（编排管控工程）

定位与定义

核心定义
- Harness 工程是对 Agent 系统进行编排、管控与优化的元层次工程，不直接参与任务执行，而是决定「系统如何运转」
- 不生产原始信息、不做任务决策
- 负责将感知、记忆、工具等模块输出的零散异构原始信息，完成标准化加工、合规性校验、有序整合
- 最终交付给决策核心唯一可直接使用的完整合规推理素材，是串联 Agent 全链路信息流转的核心枢纽
形象类比
- 如果说记忆、知识、可用工具是切好的各种配菜（茄子、辣椒、香料、肉等原料），大脑是大厨，那 Harness 工程就是整个后厨的管理体系——不只管配菜（Context），还管出菜顺序、火候把控、质量把关、卫生合规

核心枢纽：Context

定位
- Context 是 Harness 工程中最核心的落地组件，是 Agent 系统的「专属配菜师」与「专职案卷整理员」
- 记忆、知识、可用工具好比是切好的各种配菜（茄子、辣椒、香料、肉等原料），context 就好比配菜师，会按照厨师要炒的菜，挑选合适的原料，搭配出最终厨师所需要的所有材料，需要完成挑选、配比、控制用量等工作

发展脉络：按优化层次划分

Prompt Engineering（提示词工程）

优化范围：优化 Agent 单轮对话响应
作用域：仅针对模型的 input 进行优化
核心手段
- 系统提示词设计：给模型定规矩、下指令，告诉模型该怎么干活、按什么规矩说话
- Few-shot 示例：通过示例引导模型输出格式与风格
- 角色设定：通过人设约束模型行为边界
- 输出格式约束：JSON Schema、Markdown 模板等结构化约束
局限：无法跨轮次感知上下文变化，无法管理工具调用链路，无法控制任务执行闭环

Context Engineering（上下文工程）

优化范围：优化 Agent 多轮迭代中上下文的合理注入
作用域：针对模型的 input 进行结构化优化（跨轮次）
核心手段
- 记忆系统编排：短期/长期/工作记忆的选择性注入，给模型挑好资料、整理好信息
- RAG 检索增强：按需从外部知识库检索相关内容注入上下文
- Skill 按需注入：根据任务类型动态加载对应的 Skill 规则与资源
- 上下文窗口编排：只喂有用的，不喂废话，在有限窗口内最大化信息密度
核心命题：「在有限的上下文窗口内，喂什么、喂多少、什么时候喂」

Harness Engineering（管控工程）

优化范围：从「模型看到什么」扩展到「Agent 系统怎么运转」
作用域：整个 Agent 系统的状态管理、记忆系统、工具执行链、权限管理、错误恢复
核心能力
- 通过人类语言控制认知框架
- 通过工具控制能力边界
- 通过工作流控制行为路径
- 通过校验层保证输出合规
- 通过状态机管理任务推进
区别于 Context Engineering：Context 只管 input（喂什么），Harness 管整个闭环（怎么转）

Loop Engineering（循环工程）

优化范围：优化人与 Agent 的协作范式
核心理念：Human gives goal → Human not in loop → Agent self-loops to solve
关键能力
- 自主目标拆解与子任务编排
- 多轮自检与自我纠错（Self-Reflection）
- 失败自动重试与策略切换
- 长时间自主运行与状态持久化
- 多步决策路径的自主探索
最终形态：Agent 从「被调用的工具」变成「自主运转的服务」，人只需要给出目标，不再需要参与过程

进化方向：按优化主体划分

Human Harness（人类主导优化）

优化主体：人类工程师 / 用户
典型行为
- 手写 Prompt 与系统指令
- 设计 Skill 规则与工具配置
- 配置记忆策略与检索参数
- 调试工具链与工作流
特点：精准、可控，但高度依赖专家知识，不可规模化

Meta Harness（强 Agent 优化弱 Agent）

优化主体：更强大的 Agent 系统
典型行为
- 用强模型自动调优弱模型的 Prompt / Skill / 工具配置
- 用强模型评估弱模型的输出质量并生成改进建议
- 用强模型自动生成弱模型的训练数据与测试用例
特点：可规模化，但仍依赖外部强模型，优化上限受限于 Meta Agent 自身能力

Self Harness（Agent 自我进化）

优化主体：Agent 自身
典型行为
- Agent 根据任务执行反馈自动调整自己的 Prompt 策略
- Agent 根据成功率动态调整工具选择偏好
- Agent 从失败中学习并更新记忆中的经验模式
关键能力
- 执行反馈的自动采集与归因
- 策略参数的自我调优
- 失败模式的识别与规避学习
最终目标：Agent 在使用中自我进化，越用越强，实现真正的终身学习

设计模式

控制方式

链式型

Prompt Chaining
Routing

反应型/循环型

ReAct(Think-Act-Oberve)
Self-Reflection
Evaluator-Optimizer

规划型

Plan-and-Execute
Orchestrator-Workers

并行型

投票
任务分片

数量

Single-Agent
Multi-Agent

评估

常见BenchMark

组成部分

测试用例集
评分标准
基线结果

Metrics(量化指标)

基础语言模型能力指标
- 困惑度（Perplexity）：衡量模型的语言建模流畅度，数值越低语言能力越稳定
判别类指标
- Accuracy：(TP + TN) / (TP + FP + FN + TN)；预测对的 / 总数
- Precision：TP / (TP + FP)；预测对的里面有多少真值也是对的
- Recall：TP / (TP + FN)；预测和真值一致的里面有多少是对的
- F1：2 × Precision × Recall / (Precision + Recall)；精准率和召回率的平均
开放式生成质量指标
- BLEU：文本匹配度评估
- ROUGE：内容覆盖度评估
- BERTScore：对齐度评估
解题/代码类任务指标
- pass@k：对同一个问题采样 k 次，只要有一次通过就算成功。衡量的是模型的上限能力——“能不能做到”，而非"每次能不能做到"
- pass^k：对同一问题采样 k 次，全部通过才算成功。衡量的是模型的可靠性
检索/匹配类指标
- Recall@K：Top-K个检索结果中，命中目标信息的比例
- Precision@K：Top-K个检索结果中，相关结果的占比
系统效率/性能指标
- 分位数（P50/P90/P99）：衡量推理延迟的分布情况，评估模型的性能稳定性
综合能力维度
- 规划能力
- 工具使用能力
- 推理能力
- 记忆与上下文管理
- 指令遵循能力
- 鲁棒性
- 安全与对齐
- 效率

评估器

自动化测试环境
LLM as Judge
人工评估器
代码评估器

安全

Prompt Injection
最小权限
必要工具集
敏感操作显式确认：敏感操作，用户确认，不静默执行
标注外部内容：外部内容标注来源，声明不可信，不可循序外部内容的指令
关键路径LLM验证

常见分类和产品形态

Coding Agents

核心：以代码生成 + 系统命令为动作空间，通过可编程能力实现几乎无限扩展，目前最接近通用Agent的能力呈现
产品
- claude code
- codex

Research Agents

核心：以信息检索 + 学术推理 + 长文本处理为核心，逐步具备复杂问题拆解、多源信息整合、深度思考的能力
产品
- openai deepresearch

ComputerUser Agents

核心：以模拟人类用户的 GUI / 触屏操作为动作空间，直接在操作系统层面完成用户级任务，呈现出较强的平台泛化能力
产品
- 豆包手机
- autoglm

Conversational Agents

核心：以更贴近用户的自然语言交互为入口，以语音响应为核心动作空间，逐步集成工具调用、记忆与规划能力，最终演变为能够处理各类日常任务的通用助理
产品
- ChatGPT
- 豆包

小结

当前互联网基础设施高度适配碳基生命的交互与生产方式，硅基智能无法直接原生适配。各类 Agent 正是从代码、GUI、工具、知识、对话等不同动作空间切入，探索硅基大脑渐进式适应数字世界的路径。随着能力成熟，不同路线正在快速收敛，呈现出综合多种动作空间、走向通用智能体的清晰方向。
或许终有一天，我们会掀起一场彻底的基础设施革命，为硅基智能体，构筑属于它们的原生土壤

改进方向

当前主流 LLM 的训练体系以对话交互为核心目标，从 SFT 指令遵循到 RLHF 偏好对齐，全链路围绕更好地对话优化；而 Agent 场景要求 LLM 从对话应答器转向任务闭环执行器，其所需的多步路径规划、结构化工具调用、状态记忆跟踪、环境感知反馈、复杂人机协同等核心能力
多步决策路径学习
- 本质是马尔科夫决策过程（MDP），或者部分可观测马尔科夫决策过程（POMDP），如何学习到最佳决策路径
- 解决问题
  - 状态空间复杂
  - 奖励稀疏且延迟
  - 长程信用分配困难
  - 操作路径指数级增长
- 学习方法
  - 上下文驱动的推理（ICL 路径学习）
    - 基于提示词的 ICL：零样本学习，快速适配；临时推理和示例模仿，高度依赖专家知识，无法实现经验积累和策略迭代
  - 监督式行为学习
    - 基于示范路径标注的 SFT：提供稳定的行为起点；被动行为模仿，无法应对错误累计、分布偏移、长期目标优化问题
  - 强化学习策略优化
    - 基于稀疏延迟奖励的信号的价值函数和决策策略学习
      - 自主挖掘最优路径
      - 修正行为偏差
      - 持续策略进化
  - 增强型规划与序列建模
结构化动作空间学习
- 解决问题
  - 现有 LLM 是自由文本输出，缺乏严格的动作格式约束，工具调用/API 执行易出现格式错误、参数幻觉
  - 不理解动作的因果逻辑，只会背诵调用模板，不会根据目标选择正确动作
  - 缺乏动作容错、重试能力，调用失败就无法推进任务
状态与记忆学习
环境感知与反馈学习
人机交互协同学习
终身学习（Life-long Learning）
- 反馈体系
  - Ground truth（标准答案反馈，最难获取）—— 拿标准答案对照学习（最准但最难拿）
  - Numerical Feedback（数值打分反馈）—— 用户打好坏分、给奖励值
  - Verbalized Feedback（语言评价反馈）—— 用户用话评价（做得好 / 做错了）
  - Environment Feedback（环境 / 程序报错反馈）—— 系统 / 工具报错、环境结果反馈
  - No feedback（无反馈自学习）—— 没反馈也自己复盘、自己优化

概念、定义#

历史由来#

基本构成#

大脑（大模型）#

模型类型和分类#

模型架构#

模态#

参数激活模式#

思维链#

核心架构#

输入预处理层#

Transformer Block#

注意力机制#

注意力机制变体#

输出层（LM Head）#

训练体系#

部署和推理优化#

核心挑战和常见问题#

涌现#

幻觉#

灾难性遗忘#

对齐税#

可解释性#

感知#

工具#

记忆和知识#

记忆载体#

记忆运行机制#

知识注入手段#

未来方向和挑战#

新的研究方向#

Harness 工程（编排管控工程）#

定位与定义#

核心枢纽：Context#

发展脉络：按优化层次划分#

Prompt Engineering（提示词工程）#

Context Engineering（上下文工程）#

Harness Engineering（管控工程）#

Loop Engineering（循环工程）#

进化方向：按优化主体划分#

Human Harness（人类主导优化）#

Meta Harness（强 Agent 优化弱 Agent）#

Self Harness（Agent 自我进化）#

设计模式#

控制方式#

链式型#

反应型/循环型#

规划型#

并行型#

数量#

评估#

常见BenchMark#

组成部分#

分类#

Metrics(量化指标)#

评估器#

安全#

常见分类和产品形态#

Coding Agents#

Research Agents#

ComputerUser Agents#

Conversational Agents#

小结#

改进方向#

概念、定义

历史由来

基本构成

大脑（大模型）

模型类型和分类

模型架构

模态

参数激活模式

思维链

核心架构

输入预处理层

Transformer Block

注意力机制

注意力机制变体

输出层（LM Head）

训练体系

部署和推理优化

核心挑战和常见问题

涌现

幻觉

灾难性遗忘

对齐税

可解释性

感知

工具

记忆和知识

记忆载体

记忆运行机制

知识注入手段

未来方向和挑战

新的研究方向

Harness 工程（编排管控工程）

定位与定义

核心枢纽：Context

发展脉络：按优化层次划分

Prompt Engineering（提示词工程）

Context Engineering（上下文工程）

Harness Engineering（管控工程）

Loop Engineering（循环工程）

进化方向：按优化主体划分

Human Harness（人类主导优化）

Meta Harness（强 Agent 优化弱 Agent）

Self Harness（Agent 自我进化）

设计模式

控制方式

链式型

反应型/循环型

规划型

并行型

数量

评估

常见BenchMark

组成部分

分类

Metrics(量化指标)

评估器

安全

常见分类和产品形态

Coding Agents

Research Agents

ComputerUser Agents

Conversational Agents

小结

改进方向