AI综述 on 我的博客

智能语音架构演进史以及Agent时代新思考

Wed, 28 Jan 2026 00:03:51 +0000

从科幻电影“Her”与漫威中的“贾维斯” 开始，人类一直幻想拥有一个可以像人一样的无所不能但毫无抱怨的智能助手。为此，业界前仆后继，始终在探索使用各种技术逼近这种“能听懂、会执行”的理想形态：从贝尔实验室在 1950 年代实现对 0–9 数字的识别，到 Siri、Alexa 等面向指令式需求的智能语音助手，再到国内小爱、小度、天猫精灵等覆盖生态设备控制的产品，都是这一路探索的里程碑。

如今，站在 2025 年这个时间节点，距离 ChatGPT 发布已三年，生成式 AI 的进展足以全面颠覆既往的智能语音助手实现思路，并将其能力推向更广阔的空间。

因此，我们有必要回顾智能语音技术架构的发展脉络，“以往之可鉴”帮助我们在大模型、Agent 等技术仍处混沌之际抓住核心抓手，方能“知未来之可追”。

回顾来看，智能语音架构的演进大致可分为五个阶段：信号初探、统计时代、深度神经网络时代、Transformer与预训练时代，以及大模型与Agent时代。下文将依此回顾各阶段的代表性架构及其主要特征。

需要强调的是，本文仅为一家之言，抛砖引玉，仅供参考。

语音架构抽象

为便于讨论，本文尝试将一个智能语音系统大概的抽象为四个角色模块：声学模块、理解模块、决策模块、执行模块。这个抽象并不严谨，在实际的工程架构实现中也不会有严格的模块对应（很多情况下，可能多个角色糅合在一起，也可能一个角色被拆成多个模块实现），它是一种概念上的划分，能够帮助我们更清晰的看到不同的技术潮流下各个环节的演进过程和分分合合

1) 声学

负责把物理世界的连续的音频信号稳定地转成离散的文本，负责“听到、听清”，是语音交互的“入口”。

物理信号 -> 文本
典型能力：唤醒（KWS）、语音活动检测（VAD）、回声抵消/降噪/去混响（AEC/NS/DR）、麦阵与波束形成（可选）、语音识别（ASR）。

2) 理解

负责把计算机无法理解的自然语言文本转成计算机可以理解的结构化语义，负责 “听懂”，让系统“知道用户想要什么”。

文本 -> 语义
典型能力：意图识别（Intent）、槽位/实体抽取（Slot/NER）、归一化（时间/地点/数值）、指代消解与上下文状态更新、多轮语义融合。

3) 决策

负责在用户意图与条件约束下做“下一步做什么”的执行选择，负责“会想”，给出符合用户意图的决策选择并给出对应的回复文本。

语义 -> 计划
典型形态：传统对话管理（状态机/ActionServer规则/策略学习）、Skill（路由/仲裁/API调用/NLG生成）、 LLM-based Agent（Plan/工具选择）等

4) 执行

负责把决策结果落到具体工具/API/TTS播报，负责“会做”，给用户实际的可交互响应。

计划 -> 动作
典型能力：工具/API调用、TTS播报、鉴权与权限校验、参数校验、错误处理与重试。

五个时代

时代一：信号初探（1950s–1980s）

这个时期的探索主要集中在声学信号上，主要是实验室研发人员开始对数字化的音频信号进行了一系列的研究，初步总结出了一些特征，以及使用这些特征进行规则建模

架构：声音信号特征提取和规则匹配

当前时代的初步结构是 “信号接收→特征粗提取→模板比对→固定检出” 的声学模块，无独立语义理解以及后续流程模块，本质是“声音与预设模板的一对一映射”。

信号预处理：以简单滤波、增益控制为主，缺少系统化降噪/去混响能力；
典型特征：多带通滤波器能量轨迹、短时能量与过零率、倒谱/线性预测（LPC）等谱包络特征
识别核心：以模板匹配为主（多为孤立词/小词表）；DTW（“伸缩”对齐）在 1970 年代逐步成为常用的时序对齐方法，用于将输入语音与模板进行对齐与比对；

代表案例与瓶颈

里程碑：

1952 年贝尔实验室的 Audrey 系统，能识别特定人说的 0–9 十个数字，但需要在安静环境、受控语速下运行。

痛点：

只能识别孤立词（通常仅几十词规模，<100）
换个人说、换个环境就不行了
无法理解连续语音，更别提对话

时代二：统计时代（1990s-2014）

随着时代进步，算力得到了很大的提升，人们对于语音的理解也更加深入，这时候开始使用基于数据统计的概率模型来进行语音各个环节的处理，计算"这段语音最可能对应哪些音素/词"，而不是死板的匹配。

这时确立了经典的流水线架构：特征提取 → 声学模型 → 语言模型 → 语义理解 → 合成输出。

架构：模块化分工的"工厂流水线"

确立"特征工程→声学模型→语言模型→语义理解→语音合成"的流水线架构，各模块独立训练与优化，类似"工厂组装线"各司其职。核心特征是从规则匹配转向概率统计驱动，但专家经验仍主导框架设计（特征工程、模型拓扑），实现了"连续语音识别+基础语义理解"的突破。

特征提取层：人工设计梅尔频率倒谱系数（MFCC），模拟人耳对频率的感知，通过预加重、分帧、FFT提取“声学指纹”；
声学模型：高斯混合模型（GMM）+隐马尔可夫模型（HMM）组合——GMM计算声学特征与音素的匹配概率，HMM处理音素序列的时序转移（解决连续语音的“音素衔接”问题）；
语言模型：基于N-gram算法，通过统计大规模文本中词序列共现概率，对声学模型的多个候选结果排序，选出最符合语言习惯的词序列（如“苹果”“平果”）；
语义理解（NLU）：大量依赖人工特征工程（关键词、词性、规则模板），意图识别采用支持向量机（SVM）、朴素贝叶斯等浅层机器学习分类器，槽位提取使用条件随机场（CRF）进行序列标注或基于规则的模式匹配，需要为每个领域（天气、音乐、闹钟）单独标注训练数据；
语音合成（TTS）：采用“片段拼接合成”，将预录的语音片段按文本序列拼接，音色机械（MOS评分＜3.5）。

示例流程：

下面用一个简单的例子来理解统计时代的语音识别流程。假设用户说出"今天天气怎么样"，系统如何把将声音识别成文字并最终执行呢？

步骤1：提取声音特征（MFCC）

麦克风录下你的声音波形，系统将其切成一小段一小段（每段约0.025秒），用MFCC算法提取每段的"声学指纹"——类似给每小段声音打上特征标签，模拟人耳对声音的感知方式。

输出：一串特征向量序列，可以理解为"这段声音的数学描述"。

步骤2：声学模型识别音素（GMM-HMM）

系统用声学模型（GMM-HMM）将特征序列匹配到拼音音素：

GMM（高斯混合模型）：描述每个音素（如"tian"）可能对应的特征分布（考虑不同人的音色差异）
HMM（隐马尔可夫模型）：处理音素的时序关系（如"天气"的发音是"tian"和"qi"连在一起）

系统通过概率计算，找到最可能的拼音序列：jin-tian-tian-qi-zen-me-yang

步骤3：语言模型纠错（N-gram）

声学模型可能给出多个候选：

“今天天气怎么样”
“今天天齐怎么样”（发音相似但不常见）
“金田天气怎么样”（发音接近但罕见）

语言模型通过统计大量文本数据，发现"今天+天气"的组合出现频率远高于"今天+天齐"，从而选择最符合语言习惯的结果。

步骤4：语义理解（NLU）

ASR得到文本 "今天天气怎么样？" 后，需要进一步理解用户意图，将文本转为结构化语义。统计时代的NLU主要用以下方法：

4.1 意图识别（Intent Classification）

通过模式匹配或浅层机器学习（如SVM、朴素贝叶斯）判断用户意图：

特征工程：提取关键词（“天气”、“怎么样”）、词性、N-gram特征
分类器训练：用标注数据训练分类器，将文本映射到预定义意图
结果：识别为 QUERY_WEATHER 意图

4.2 槽位提取（Slot Filling）

提取关键信息，常用方法：

基于规则：模式匹配（如正则表达式识别"今天"为时间）
条件随机场（CRF）：序列标注模型，学习词与词之间的依赖关系

提取结果：

时间槽（time）：今天

4.3 结构化输出

{
  "intent": "QUERY_WEATHER",
  "slots": {
    "time": "今天"
  }
}

步骤5：决策与执行

系统根据结构化语义调用天气服务API，获取结果后用TTS（语音合成）播报：“今天北京晴，温度15-25度。”

代表案例与瓶颈

里程碑：

1997年 Dragon NaturallySpeaking：首个消费级连续语音识别软件，开启PC端语音输入
2008年 Google Voice Search：移动端语音搜索起点，语音从实验室走向大众
2011年 Siri：首次让语音助手进入千万部手机（设备端唤醒 + 云端识别）
2014年 Amazon Echo：7麦克风阵列实现5-10米远场唤醒，从手机走向客厅

痛点：

模块割裂，误差层层累积（声学错了，后续模块无法修正）
人工特征工程依赖专家经验，泛化能力弱（换个说法可能识别不出）
冷启动困难：新领域需要大量人工标注和规则编写
无法处理复杂语义：多意图、嵌套逻辑、隐含信息等
封闭生态，功能全靠官方迭代

时代三：深度神经网络时代（2015-2018）

这个阶段有两大核心特征：一是用深度神经网络逐个替换传统流水线中的人工设计模块，实现"模块级端到端化"——每个模块内部从特征到输出可学习，但模块间仍需显式对接；二是决策模块从封闭的内置功能转向开放的Skills生态，开发者可独立构建和发布技能，推动语音系统从"功能产品"向"平台生态"转变。

架构：神经网络栈的模块化替换

从"人工特征+统计模型"升级为"端到端神经网络栈"，但整体架构仍保持"ASR → NLU → DM → TTS"的流水线形态，各模块独立训练与优化。

远场语音前端成熟化：麦克风阵列 + DOA方向估计 + 波束形成（BF）+ AEC/NS/DR（回声抵消/噪声抑制/去混响）形成完整解决方案，解决远距离、强噪声、混响以及多人同时说话的"鸡尾酒效应"问题，显著提升客厅/车载等复杂环境下的识别稳定性；
ASR模块级端到端：基于LSTM/RNN的深度神经网络让ASR从"MFCC特征→GMM声学→HMM时序→N-gram解码"简化为音频→文本的单一神经网络，神经网络自动学习音频与文本的对齐关系，WER大幅下降；循环神经网络开始探索流式识别；
唤醒词检测（KWS）：DNN/CNN等深度神经网络替代传统GMM，降低误唤醒和漏唤醒率，支持多唤醒词；
NLU初步神经化：BiLSTM/CNN开始用于意图分类与槽位抽取，但仍依赖大量标注数据，跨域泛化能力有限；
决策模块生态化突破：从封闭的内置动作映射（Intent→Action）转向开放的Skills/Actions开发生态，第三方开发者可独立定义意图、构建服务并发布技能，极大推动了语音系统从"功能产品"向"平台生态"的转变；
TTS初步神经化：基于Seq2Seq（LSTM + Attention）的端到端神经网络实现文本→梅尔谱的端到端建模，配合深度卷积网络声码器，自然度首次接近真人（MOS >4.0），但推理成本高。

示例流程：

同样以"今天天气怎么样"为例，看看深度神经网络时代相比统计时代有哪些变化：

步骤1：远场音频预处理

用户在5米外说话，麦克风阵列采集多路音频信号，通过波束形成（BF）锁定说话方向，AEC/NS/DR模块去除回声、噪声和混响，输出干净的单通道音频。

步骤2：端到端ASR识别

基于LSTM/RNN的深度神经网络直接将音频波形转为文本 "今天天气怎么样"。神经网络内部自动完成特征提取、声学建模、语言建模的联合优化，不再需要MFCC→GMM→HMM→N-gram的多步骤流水线。

步骤3：神经化NLU

BiLSTM/CNN神经网络对文本进行意图分类和槽位抽取：

意图识别：神经网络输出 QUERY_WEATHER（置信度0.95）
槽位抽取：序列标注模型识别 今天 为时间槽

步骤4：Skill路由与决策

系统将意图路由到天气Skill，Skill内部通过人工编写的规则逻辑处理：

if intent == "QUERY_WEATHER":
    location = get_user_location()  # 获取用户位置
    weather_data = call_weather_api(time="今天", location=location)
    response = generate_response(weather_data)  # 模板填槽

与统计时代对比：从封闭的内置功能转向开放的Skills生态，但决策逻辑仍需人工编写。

步骤5：TTS语音合成

基于Seq2Seq（LSTM + Attention）神经网络将回复文本 "今天北京晴，温度15-25度" 转为梅尔频谱，再通过深度卷积网络声码器合成自然的语音输出。

代表案例与瓶颈

里程碑：

2015-2016 年各大厂商推出深度学习版ASR，WER相比统计时代下降30-50%
远场语音产品大规模出货（智能音箱、车载系统）
2015年 Alexa Skills Kit发布，开放第三方技能开发，从封闭的内置功能转向开放平台生态，开发者数量快速增长，极大丰富了语音助手的应用场景

痛点：

RNN/LSTM训练效率低，难以处理超长序列
NLU仍依赖大量人工标注，冷启动成本高
跨任务迁移能力弱，每个新场景需重新训练
多轮对话仅支持槽位继承，不支持上下文文本继承和对话延续：基于规则/状态机的对话管理只能实现简单的槽位复用，无法理解前文语义和进行连贯对话
Skill决策逻辑需人工编写规则，对话生成（NLG）仍依赖模板填槽，难以应对灵活多变的交互需求

时代四：Transformer与预训练时代（2019-2022）

Transformer架构的引入带来了架构范式的根本性变革：从RNN的序列递归转向全局自注意力，实现了并行训练、长距离依赖建模与大规模预训练的可能性。这一阶段不仅是算法升级，更是整个系统能力的质的飞跃。

预训练+微调范式成为标准，开发者无需从头训练大模型，只需在预训练模型基础上用少量数据微调即可获得优秀性能，极大降低了技术门槛，让小公司和个人也能参与NLP/语音技术开发，堪称NLP领域的"ImageNet时刻"。

架构：预训练+微调的新范式

从"单任务监督训练"转向"大规模无监督预训练 + 下游任务微调"，Transformer成为语义理解和生成模块（ASR/NLU/NLG）的统一骨干架构，而远场前端、唤醒词检测等信号处理模块仍沿用深度神经网络时代的技术。整体仍保持"ASR → NLU → DM → TTS"的流水线形态，核心变化是模块内部算法从RNN/LSTM升级为Transformer。

自注意力机制引入ASR：Conformer（2020）将卷积与自注意力结合，取代RNN的序列递归，实现并行训练与长距离依赖建模，成为ASR新标准；流式Transducer架构成熟，设备端ASR实现<500ms首字延迟；
预训练NLU：BERT/RoBERTa/ERNIE等在意图分类、槽位抽取上大幅提升F1（典型提升10-15个百分点），少样本学习能力显著增强；
生成式NLG：T5/BART/mT5/GPT系列用于对话生成，从模板填槽升级为灵活的自然语言生成；
神经TTS工业化：声学模型引入Transformer（如FastSpeech从自回归转向非自回归并行生成），声码器引入GAN（生成对抗网络，如HiFi-GAN通过对抗训练实现高质量并行生成），两者结合让实时合成成为可能（RTF<0.1），相比深度神经网络时代WaveNet的自回归慢速生成实现质量与速度的平衡，多说话人/情感/韵律可控性大幅提升；
多模态探索：语音-文本联合预训练（如Wav2Vec 2.0）开始尝试，为后续多模态大模型铺路；
平台工具链成熟：Alexa Skills Kit（ASK SDK/SMAPI/ASK CLI）、AVS Device SDK生态完善，开发者可快速构建并分发技能。

示例流程：

继续以"今天天气怎么样"为例，看看预训练时代相比深度神经网络时代的核心变化：

步骤1：远场音频预处理

与深度神经网络时代相同，通过麦克风阵列、波束形成、AEC/NS/DR处理后输出干净音频。

步骤2：Conformer ASR识别

基于Conformer（卷积+自注意力）的神经网络将音频转为文本 "今天天气怎么样"。相比LSTM/RNN：

自注意力机制实现全局并行建模，训练效率大幅提升
长距离依赖建模能力更强，识别准确率进一步提高

步骤3：预训练NLU理解

使用预训练BERT模型进行意图分类和槽位抽取：

# 开发者只需少量数据微调预训练模型
pretrained_model = load_bert_pretrained()  # 加载预训练模型
finetuned_model = finetune(pretrained_model, few_shot_data)  # 用少量数据微调

# 推理
intent = finetuned_model.classify("今天天气怎么样")  # QUERY_WEATHER
slots = finetuned_model.extract_slots("今天天气怎么样")  # {time: "今天"}

步骤4：Skill路由与决策

与深度神经网络时代相同，仍然是基于规则的Skill路由和决策逻辑（这是该时代的瓶颈之一）。

步骤5：生成式NLG

使用T5/GPT等生成式模型生成自然回复，不再依赖固定模板，从模板填槽升级为灵活的自然语言生成，对话更自然。

# 深度神经网络时代：模板填槽
response = "今天{location}{weather}，温度{temp}度"  # 机械

# 预训练时代：生成式NLG
response = generate_response(weather_data, style="friendly")  
# "今天北京的天气不错哦，晴天，温度在15到25度之间，适合出门活动~"  # 灵活自然

步骤6：FastSpeech + HiFi-GAN合成

声学模型（FastSpeech的Transformer）生成梅尔频谱，声码器（HiFi-GAN的GAN）合成语音，实现实时高质量输出（RTF<0.1），生成的音频更加实时、自然

代表案例与瓶颈

里程碑：

2018年BERT发布，开启NLP领域"ImageNet时刻"，预训练+微调范式大幅降低技术门槛
2020年Conformer论文发布，迅速成为ASR业界标准
预训练模型让NLU冷启动时间从数周缩短至数天，小公司和个人开发者也能快速构建NLU应用
神经TTS达到可商用的实时性与自然度（MOS >4.3）
设备端推理优化让更多能力下沉到边缘

瓶颈：

预训练模型仍需大量标注数据微调
跨任务协同仍需人工编排（缺乏自主规划能力）
对话管理（DM）仍是基于规则/状态机，难以处理开放域交互
系统整体仍是"多模块协作"，端到端优化困难

时代五：大模型与Agent时代（2023-）

大模型时代并未改变基础模型架构（仍是Transformer），但通过数据规模和参数量的指数级的扩张，使模型意外的涌现出推理能力。这种涌现推动了语音架构的范式转变：从模块化流水线转向以LLM为中枢的自主Agent系统。 Agent系统的核心特征在于：LLM作为推理引擎（理解意图、规划任务、生成决策）、工具调用能力（主动调用API/Skill完成子任务）、记忆与上下文管理（维护多轮对话状态）。这一范式目前仍在快速演进中，架构形态尚未定型，但我们仍然看到过去的几年呈现出的三个阶段性方向。

回看 2023 以来的产业实践，大致能看到三条比较常见的方向。它们并不是严格的时间切片，很多能力在并行推进、互相叠加；更重要的是，“流行”只代表阶段性性价比或关注度高，并不保证最后会被证明是最优路线。

趋势一：换脑与 Scaling Law（2023-2024）

这一阶段一边是模型侧继续沿着 Scaling Law 拉数据与算力，把通用能力（语言理解、生成、一定程度的推理）快速抬高；另一边是应用侧开始做“换脑”：用 LLM 替代传统 NLU/DM，把原先靠意图/槽位/状态机硬编码的部分，改成“提示词 + 上下文 + 检索/工具”的组合来驱动对话与决策。它确实让开放域对话、长尾表达、复杂指令理解更容易了，但代价也很现实：时延与成本抬升、输出可控性下降、评测从单点准确率转向端到端任务成功率，因此工程上往往需要配套的防护与约束（检索增强、结构化输出、规则兜底、权限与风控）。

趋势二：多模态统一与 Test-Time Scaling（2024-2025）

在语音交互里，一个显著变化是越来越多团队尝试把“听、想、说”放进同一个模型/同一套表示里：以 GPT-4o 这类 audio-to-audio 为代表的端到端形态，让传统 ASR/TTS 的硬边界开始变得可选，而不是必选——这对自然度、实时性与多模态一致性很有吸引力，但也意味着训练数据、在线推理成本、端侧部署与可观测性都要重新算账。与此同时，推理侧出现了另一条路：以 o1 这类 test-time compute / 思维链增强 的方法为代表，通过“多想一会儿”（采样、搜索、验证、反思）换取更强的推理与解题能力。它在可验证任务上很亮眼，但是否适合实时语音产品，往往取决于延迟预算、失败成本和是否能把推理过程产品化（比如把“慢”变成“更稳”，而不是“更贵”）。

趋势三：Agentic System 与强化学习（2025-）

进一步往前走，行业开始更系统地搭建 Agent：从“回答一句话”转向“把事办成”，强调计划—执行—反馈—修正的闭环，把工具调用、记忆/上下文、任务分解、异常恢复、可观测与审计做成一套工程体系。与之配套的训练思路也在演进：在代码、数学等可验证环境里，RLVR 等方法带来了可见的收益，为“如何把 Agent 的行为学出来”提供了新抓手。但这条路线的边界同样清晰——现实世界任务往往难以定义可验证奖励，安全与对齐成本高，离线评测与线上灰度也更复杂；因此更像是一场“能力 + 工程 + 机制设计”的综合赛跑，而不是单纯堆模型就能结束的竞赛。

架构：Agent 系统 = LLM 负责规划决策 + 工具负责确定性执行，把对话变成“能办成事”的闭环。

更具体一点，这个“Agent 系统”在大模型时代的模型/模块形态，常见会出现四个方向的重构（并不互斥，也不一定每个产品都需要走到最激进形态）：

感知层（ASR）端到端化：ASR 侧开始更多采用 Whisper 这类端到端模型，甚至在一些形态里被“语音-语言模型（Speech-LLM）/全模态模型”吸收，直接把语音输入映射到语义表示或可执行工具。它能显著降低传统特征工程与多模块耦合，但也会把实时性、在线成本、端侧部署与可观测性问题推到更核心的位置。
理解与决策层（NLU/DM）弱化甚至跳过：NLU 不再只能是“意图分类+槽位抽取”。常见做法是 LLM +（轻量微调/对齐）+ 上下文/检索 来完成理解、澄清、决策；更进一步时，系统可能不显式产出 NLU 结构，而是直接利用大模型的推理能力选择下一步动作（当然，这往往需要结构化输出、约束解码或规则兜底来保证可控性）。
记忆系统（短期/长期）成为基础设施：把多轮对话的“短期工作记忆”（当前Query、回复）与“长期记忆”（偏好、画像、历史任务与重要事实）分层管理，通过写入策略、检索召回与过期纠错机制，向理解与决策层提供更稳定的上下文参考。它的价值不在“记得更多”，而在记得准、给得对（避免把幻觉或噪声固化进长期记忆）。
业务 Agent 层走向 Hybrid（编排 + 自规划）：真正落到业务决策时，纯“全自动自规划”并不总是性价比最高。很多团队会采用 人为编排（流程/策略/模板）+ 自规划（在局部空间搜索/补齐） 的混合形态：关键路径可控、长尾靠模型兜底。与此同时，“Skill/Tool 描述”变得更重要——它不仅是功能入口，也是在给自规划 Agent 注入背景、边界、偏好与可用知识，让规划更像“在规则内自由发挥”。
执行与表达层（Tools + TTS）确定性增强：执行侧越来越强调“确定性”：通过 MCP 这类协议把外部能力标准化成可调用、可审计、可回滚的工具；表达侧则更多采用端到端的 text-to-audio（例如 Qwen TTS 等）来生成更自然的人声回复，配合流式输出、可打断、低延迟的交互体验。整体上是“概率决策在上层，确定性执行在下层”。

示例流程：

同样以"今天天气怎么样"为例，看看大模型与Agent时代相比预训练时代的根本性变化：

步骤1：多模态感知（可选端到端路径）

用户在5米外说话，系统有两种处理路径：

路径A（传统流水线）：远场音频预处理 → Whisper等端到端ASR → 文本 "今天天气怎么样"

路径B（端到端多模态）：音频直接输入GPT-4o等多模态大模型 → 跳过ASR，直接理解语音语义

步骤2：LLM Orchestrator 选择 Agent

LLM Orchestrator 作为路由层，负责根据用户输入选择合适的 Agent：

# 构建Orchestrator上下文
context = {
    "user_input": "今天天气怎么样",
    "conversation_history": [...],  # 短期记忆：最近3轮对话
    "available_agents": [
        {
            "name": "weather_agent",
            "description": "处理天气查询相关任务，包括当前天气、天气预报、空气质量等",
            "capabilities": ["get_weather", "get_user_location"]
        },
        {
            "name": "music_agent",
            "description": "处理音乐播放、搜索、推荐等任务",
            "capabilities": ["play_music", "search_song", "control_playback"]
        },
        {
            "name": "general_agent",
            "description": "处理通用对话、问答、闲聊等任务",
            "capabilities": ["chat", "qa", "general_knowledge"]
        }
    ]
}

# LLM Orchestrator 进行路由决策
response = llm.chat(
    system_prompt="""你是一个智能语音助手的Orchestrator。
    根据用户输入，你需要：
    1. 理解用户意图
    2. 从可用的Agent列表中选择最合适的Agent来处理该任务
    3. 输出选择的Agent名称""",
    user_message=context
)

Orchestrator 输出：

{
  "selected_agent": "weather_agent",
  "confidence": 0.95,
  "reasoning": "用户询问天气信息，weather_agent专门处理此类任务"
}

步骤3：Agent 加载 Skill 并制定计划

根据 Orchestrator 的选择，weather_agent 加载对应的 weather_skill，Skill 定义了 Agent 的背景知识、遵循的事实、可用的工具以及预设的计划模板：

# weather_agent 加载 weather_skill
weather_skill = {
    "name": "weather_skill",
    "background_knowledge": """
    - 天气查询需要明确时间和地点两个关键信息
    - 如果用户未指定地点，优先使用用户当前位置
    - 如果用户未指定时间，默认为今天
    - 天气信息包括：温度、天气状况、湿度、风速等
    """,
    "facts": [
        "用户位置信息存储在user_profile中",
        "天气API需要location和time参数",
        "回复应该友好、简洁、包含关键信息"
    ],
    "available_tools": [
        {
            "name": "get_user_location",
            "description": "获取用户当前位置",
            "parameters": {},
            "returns": "location (string)"
        },
        {
            "name": "get_weather",
            "description": "查询指定时间和地点的天气信息",
            "parameters": {
                "location": "string, 必填",
                "time": "string, 可选，默认为'今天'"
            },
            "returns": "weather_data (dict)"
        }
    ],
    "plan_templates": [
        "如果缺少location → 调用get_user_location → 调用get_weather → 生成回复",
        "如果location和time都明确 → 调用get_weather → 生成回复"
    ]
}

# Agent 基于 Skill 制定计划
agent_plan = weather_agent.plan(
    user_input="今天天气怎么样",
    skill=weather_skill,
    conversation_history=[...],
    user_profile={...}
)

Agent 基于 Skill 制定计划的过程：

用户问"今天天气怎么样"
→ 加载 weather_skill，获取背景知识和可用工具
→ 分析：这是一个天气查询需求，time="今天"已明确，但location缺失
→ 根据 plan_templates，选择模板1：缺少location → 先获取位置 → 再查询天气 → 生成回复
→ 制定执行计划：
   1. 调用 get_user_location() 获取用户位置
   2. 调用 get_weather(location=步骤1结果, time="今天")
   3. 基于返回结果生成友好回复（作为计划的一部分）

步骤4：执行-观察-反思循环

Agent 按照计划执行工具调用，然后观察结果并反思，必要时调整计划：

# 第一轮：执行计划的第一步
step1_result = weather_agent.execute_tool(
    tool="get_user_location",
    parameters={}
)
# 观察结果
observation1 = {
    "tool": "get_user_location",
    "result": "北京",
    "status": "success"
}

# Agent 反思：第一步成功，可以继续
weather_agent.reflect(
    plan=agent_plan,
    observations=[observation1],
    current_step=1
)
# 反思结果：计划正常，继续执行步骤2

# 第二轮：执行计划的第二步
step2_result = weather_agent.execute_tool(
    tool="get_weather",
    parameters={
        "location": observation1["result"],  # "北京"
        "time": "今天"
    }
)
# 观察结果
observation2 = {
    "tool": "get_weather",
    "result": {
        "location": "北京",
        "date": "2025-01-15",
        "weather": "晴",
        "temperature": {"min": 15, "max": 25},
        "humidity": 60,
        "wind_speed": "5km/h"
    },
    "status": "success"
}

# Agent 反思：前两步完成，继续执行第三步（生成回复）
weather_agent.reflect(
    plan=agent_plan,
    observations=[observation1, observation2],
    current_step=2
)
# 反思结果：数据收集完成，执行步骤3：生成回复

# 第三轮：执行计划的第三步（生成回复）
response = weather_agent.generate_response(
    skill=weather_skill,  # 包含背景知识和遵循的事实
    observations=[observation1, observation2],  # 工具执行结果
    conversation_history=[...],
    user_profile={...}
)
# 观察结果
observation3 = {
    "action": "generate_response",
    "result": "今天北京天气很不错呢，晴朗的一天，气温在15到25度之间。对了，您上次说想去爬香山，今天就是个好日子哦~要不要帮您查一下公交路线？",
    "status": "success"
}

# Agent 反思：所有步骤完成，任务达成
weather_agent.reflect(
    plan=agent_plan,
    observations=[observation1, observation2, observation3],
    current_step=3
)
# 反思结果：计划全部完成，任务成功

# 表达侧（TTS）：将生成的文本转为语音
# 端到端路径：直接使用GPT-4o等模型的audio-to-audio能力，或使用Qwen TTS等端到端text-to-audio模型
tts_output = tts.synthesize(observation3["result"])

# 更新记忆系统
memory.update_short_term(query=query, tts_output=tts_output)
memory.update_long_term(user_preference="常用地点：北京")

代表案例与瓶颈

产品实践

豆包手机
豆包、ChatGPT
Cursor / Claude Code
Moltbot

瓶颈

一句话概括：难点往往不在“能不能做”，而在“能不能稳定、可控、可规模化地做”。

成本与时延：多模态、长上下文、test-time compute 和多次工具调用会同时抬高推理成本与端到端延迟。
可靠性与可控性（幻觉/漂移）：一旦理解/决策出错，错误会在多步链路里被放大且更难兜底。
工具调用工程复杂度：真正的失败常来自权限、超时、幂等、依赖波动与一致性问题，而不是“不会调用”。
记忆治理：长期记忆易被噪声或幻觉污染、短期记忆易爆上下文，写入/检索/过期策略不当会反噬效果。
评测体系：从单点指标转向端到端成功率后，复现、归因与回放成本显著上升。
黑盒与不可解释性：决策依据与中间推理难以解释和审计，排障、合规与建立用户信任的成本更高。
安全与合规：可执行工具让系统具备“真实影响力”，必须默认具备最小权限、审计与敏感操作确认。
数据与对齐：多模态与工具数据难规模化沉淀，现实业务的奖励函数也更难定义与对齐。

核心洞察

1. 从专家知识驱动到数据驱动

回头看这条演进路径，我们能够观察到的一个关键的变化是核心能力的驱动模式是啥。规则时代靠专家分析特征、编写规则，系统能做多聪明，基本取决于专家能把多少经验显式化的编码成规则；统计学习时代的虽然数据特征仍然需要专家来进行设计，但处理规则已经进化到使用机器学习从数据中学习一些群体特征，完成聚类处理；深度学习则开始把特征学习也交给模型，工程与研究的重心逐渐转向网络结构与训练方法；到了大模型时代，架构形态越来越趋同（Transformer 几乎成了默认），真正拉开差距的往往是数据的规模、质量，以及围绕数据构建的工程能力。

于是我们能观察到一些变化：能力的天花板被抬高（模型能从数据中学到很多人类专家也说不清的模式、没有总结出来的经验），迭代节奏被加快（从周级迭代变成日级甚至小时级），竞争要素也在迁移（从“算法技巧” 转向 “数据 + 算力 + 工程闭环”）。对应地，“专家”的定义也变了：不再只是规则设计者，更像是数据治理的负责人和系统架构师。

2. 端到端演进与优化重心上移

核心架构的变化可以从两个维度来理解。

横向上，它不断走向端到端：从模块内的多段流水线（MFCC→GMM→HMM→N-gram），到单一神经网络（whisper/Qwen ASR），再到系统级端到端（例如 audio in/out 的范式，逐步消解 ASR→NLU→DM→TTS 的传统边界）。更重要的是，端到端网络结构往往意味着更少的人为切分与手工“过桥”特征：减少那些为了对齐模块接口而做的维度降低与中间表征压缩（人无法理解高维特征），从源头降低信息损失与误差累积。

纵向上，优化重心确实在上移：当底层识别能力已经变成了通用的平台化能力，系统的成败更多由上层的“目标和体验达成闭环”决定——怎么管理上下文、怎么做任务规划、怎么调用工具并校验结果，如何生成贴心、生动的回复。

背后的机制是“可学习的边界”不断扩张，替代了大量人工拆分与手工规则

3. 从识别理解到任务规划

从能力形态看，语音系统大致经历了三次跃迁：规则时代更多是固定映射（声音→响应）；统计/深度学习时代把重点放在语义理解（文本→意图+槽位→单一功能）；而大模型与 Agent 时代，则把“规划”推到了舞台中央（意图→多步计划→执行反思→目标达成）。

这本质上是系统智能的“上移”：先解决“他说了什么”，再解决“他想要什么”，最后要解决“怎么把这件事办成”。LLM 把推理能力注入了决策层：能拆任务、能调用工具、能在多轮对话中维护上下文与记忆。于是语音不再只是一个输入方式，而逐渐变成承载任务、驱动执行的交互载体。

4. 向概率系统演进

另一个容易被低估的变化，是系统从“确定性”走向“概率性”。规则时代的行为几乎完全可预测；统计时代虽然底层是概率模型，但上层决策依然是确定逻辑；到了大模型时代，LLM 的输出天然带采样属性，Agent 的规划路径也未必固定，多模态融合又引入更多不确定性——整个链路逐渐变成端到端的概率系统。

概率系统并不可怕，关键是学会“驾驭概率”：一方面把概率采样带来的上限与泛化性释放出来，另一方面把下限兜住——让“更准确、少胡编”变成可预期的常态，而不是靠运气。与此同时，概率性也会倒逼产品认知发生变化：它不再是那种“同样输入必须得到完全一致输出”的确定性系统，产品要学会围绕不确定性做交互（比如允许合理的多解、在关键点主动澄清、在风险处更保守）。

除了上述变化，驯化概率系统的过程中我们常常忽视——工程侧的不确定性。因为一旦执行链路本身不稳定，概率性决策的波动就会被放大，最终很容易走向：概率性决策 × 不确定性工程 → 决策灾难。

因此，越是概率系统，工程架构越要追求更高的确定性与稳定性：执行层要可预期；高风险操作要确认与授权；同时把可观测性做完整（能记录、能回放、能解释）。最后，测试与评估范式也会随之改变：不再是“链路跑通=功能完成”，而需要用批量的数据结果来评估系统状态与退化趋势，比如任务成功率、稳定性分布、以及类似 pass@1（乃至 pass@k）这类反映概率性的统计指标。

5. 专业分工的模糊化

最后是组织与协作方式的变化。大模型把很多原本清晰的模块边界打散了，产品、研发、算法、测试这些角色的边界也开始变得模糊：产品不再只写需求，也要关注Agent实现原理、模型性能；研发不止是链路和架构搭建，还要考虑模型如何推理、任务如何执行、效果如何评估；算法也不再只是负责通用模型的训练，还要关注产品设计、技术链路、数据回流；测试也不再是做端到端的机械的测试，还要关注产品逻辑、技术架构来构建自动化测试、评估集，甚至独立于产研的评价标准外创建独立的测试集。

以上的变化对人和团队的能力更加的综合，专业细化的职位描述、团队职责似乎正在变成过去式。只有一个团队可以端到端的负责到底，才能把一个概率系统做得稳、做得可控。某种意义上，这也是“逆康威定律（系统架构反过来影响组织架构）”的结果，在系统架构往端到端演进的时候，组织架构是没法做到仍然保持原有的分工，还能很好的运转。

LLM Based Agent

Sun, 07 Dec 2025 00:00:00 +0000

LLM Based Agent

概念、定义

LLM-based Agent 是以大语言模型为核心(“大脑”)，具备感知、规划、记忆和工具使用能力，能够自主理解复杂目标并采取行动以达成任务的系统。

历史由来

哲学与控制论中早已提出 Agent 是自主做出行为，拥有能动性的主体，提出感知-反馈-行动的闭环系统，是智能体结构的雏形
AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体，并通过BDI模型让 Agent 更像"有思维"的主体
强化学习中给出了Agent严格和清晰的数学定义，从此有了统一框架：感知-> 决策 -> 行动 -> 奖励
大模型时代Agent 不再是简单的决策单元，而是能自主规划、能使用工具、能够执行复杂任务的系统

模型类型和分类

模型架构

DecoderOnly
- Prefix-Decoder
- Causal-Decoder
- GPT系列
EncoderOnly
- BERT
EncoderDecoder
- T5、BART
- UniLM
- 多模态Decoder

模态

LLM
VLM
S(Speech)LM
Omni

参数激活模式

稠密模型
- GPT3
- Llama
- Deepseek V1
稀疏模型
- 混合专家模型（MOE）
- Mixtral
- Deepseek V2

思维链

有
- DeepSeek R1
无

核心架构

输入预处理层

分词（BPE）
- 先拆到最小粒度（单字符 / 字节），再按频率合并，让高频组合变成一个 token，低频的保留细粒度
- 离线预训练数据跑BPE, 得到词表，高频词+单字符+UTF8字节
- 预训练数据按词表分成token Id, 进行训练
- 推理使用词表继续tokenizer
词嵌入
- 转换成词元Id
位置编码
- 绝对位置
  - 正弦位置编码
  - 可学习绝对位置编码
- 相对位置
  - 旋转位置编码（RoPE）
    - M-RoPE
    - TM-RoPE
  - ALiBi
    - 不添加position embedding, 直接在attention加上 k(m-n)

Transformer Block

多头拆分与 KV 组织
- MHA(Multi-Head Attention)：标准多头，将 Q/K/V 均拆分为相同数量的独立头，各自计算注意力后拼接
- MQA(Multi-Query Attention)：保持多头 Q 不变，所有 Q 头共享同一套 KV 头
- GQA(Grouped-Query Attention)：将 Q 头分为若干组，每组共享一套独立的 KV 头，是 MHA 与 MQA 的折中方案
- MLA (Multi-head Latent Attention)：通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间，推理时仅缓存低维潜在向量

注意力机制

QKV变化矩阵
注意力分数计算
掩码机制（因果掩码）
注意力分数dropout
注意力权重计算
上下文向量计算

注意力机制变体

Sliding Window Attention：按固定窗口限定 KV 存储范围，只保留近期窗口内的 KV，从缓存长度上缩减 KV 占用
Streaming LLM：动态组织 KV 缓存策略，保留锚点与近期 KV、丢弃中间冗余部分，实现长文本下的 KV 缓存轻量化
前馈网络（FFN）
层归一化（LayerNorm）
残差连接

输出层（LM Head）

上下文缓存

KV cache：单次推理的自回归生成阶段，复用之前已经计算好的 Key 和 Value 向量，避免对整个上下文序列重复计算注意力
Prompt cache：将固定或重复出现的 Prompt 片段（如系统提示、长上下文前缀）的 KV 结果预先缓存，在多轮对话或相似请求中直接复用
KV Cache优化
- Pruning KV Cache：裁剪部分不重要的低贡献KV, 压缩缓存体积

训练体系

预训练

核心目标：通用语言能力、世界知识与基础逻辑习得
训练任务
- 掩码语言建模(Masked Language Modeling)
- 因果语言建模(Causal Language Modeling)
- 序列到序列(Sequence-To-Sequence)
- 判别式任务(Discriminative Tasks)

后训练

有监督微调(SFT)

核心目标：构建模型指令遵循、基础工具调用和基础任务规划能力；完成模型的基础意图、安全合规与价值观对齐
方式
- 全参微调
- 参数高效微调(PEFT)
  - LoRA(低秩更新)
    - QLoRA：4-bit 存底座 + 16-bit 动态反量化计算 + 只训 16-bit LoRA；原始参数4bit 分块量化存储；前向传播 16bit 动态反量化计算；16bit LoRA 更新
  - Adapter(插入小网络)
  - Soft Prompt(训练提示向量)
    - Prompt Tuning：输入层软提示
    - P-Tuning v1
    - Prefix Tuning：每层 K/V 前缀
    - P-Tuning v2（≈ Prefix Tuning）

强化学习（RL）增强

核心目标：优化输出的人类偏好匹配度、安全合规性、无害性；习得复杂任务的规划路径、工具调用决策、环境交互与错误修正能力；基于业务场景优化 Agent 执行路径，提升业务任务完成率
方式
- RLHF（基于人类反馈的强化学习）
- RLAIF（基于 AI 反馈的强化学习）
- RLVR（可验证奖励的强化学习）
核心算法：PPO
- Actor Model(SFT after model)
- Reword Model(建模人类偏好)
- Reference Model(冻结参数的SFT after model)
- Critic Model(给出方向指南)

业务适配微调

部署和推理优化

计算优化

量化
- 8bit/4bit量化
- GPTQ、AWQ
- GGUF量化
算子融合
- flash Attention：QK 相似度计算、掩码、Softmax、Dropout、权重与 V 加权等多个算子融合为单一算子，并通过分块计算减少 HBM 与 SRAM 之间的数据搬运，从而实现推理加速与显存优化
张量并行
批处理优化：多个独立的生成任务打包成一个「批次（batch）」，让模型一次前向同时处理所有任务

解码加速

生成解码策略

确定性解码策略
- 贪婪解码
随机采样策略
- 温度缩放
- top-k
- top-p
对比式解码策略(研究)
- Contrastive Decoding：找到推理里的无效噪声表征，用主模型的有效推理结果减去它，来放大正确内容的选中概率
  - DoLa：使用最终层的表征，减去中间层的表征，认为中间层的输出大概率是错误的
  - LayerCD：使用最终层的表征，减去初始层的表征，初始层往往是比较直觉不符合预期的答案
  - ICD(Instruct)：给模型一个降智的prompt得到错误的表征，用来减去
  - CAD(Context-Aware)：给模型上下文的推理表征减去没有引入上下文知识的推理表征
- Contrastive Search（对比搜索，可选补充，同属对比类解码）
Speculative Decoding：采用小模型快速推测多轮候选token，由大模型单次前向完成批量校验，通过减少大模型推理次数实现生成加速
重复控制
presence_penalty

基本构成

大脑（大模型）

感知

用户输入
- 文本
- 语音
- 图像
- 视频
- 文件
- GUI操作
环境采集
系统事件

工具

Tool Call
- 狭义单函数调用（FunctionCall）
- Programmatic Tool Calling
Tool Search
工具接入标准与协议
- MCP：自定义工具接入协议；对于非开放Agent而言，MCP协议更多的是对齐工具，对齐之后需要自定义工具协议，已达到最佳能效比
- 自定义工具接入协议
落地常见问题
- 数量爆炸
- 工具范围模糊、交叉
- Ghost工具, Agent不会使用的工具
- 对偶工具、查询工具碎片化
- 描述不精准，范围超出、不足、参数和描述不对齐
RAG

Skills

索引式 Skill 元数据预注入（常驻索引层）
Skill 核心规则指令全量注入
Skill 配套资源精准按需注入
本质是模型主导的渐进式知识注入，是某种任务agent的语义抽象

记忆和知识

定位：唯一对接全模块原始信息、唯一向决策核心（大模型 / 大脑）交付标准化推理素材的专职中枢，是 Agent 系统的「专属配菜师」与「专职案卷整理员」：它不生产原始信息、不做任务决策，仅负责将感知、记忆、工具等模块输出的零散异构原始信息，完成标准化加工、合规性校验、有序整合，最终交付给决策核心唯一可直接使用的完整合规推理素材，是串联 Agent 全链路信息流转的核心枢纽
记忆载体
- 外部记忆
- 内部记忆
  - 模型权重
  - 潜状态
  - k-v cache
记忆运行机制
- 存储&索引
- 加载&检索
- 更新&刷新
- 压缩&摘要
- 遗忘&保留
记忆分类
- 工作记忆
- 短期记忆
- 长期记忆
  - for user
  - for assistant
记忆类型
- 画像记忆(Who)：你是谁？(用户画像)
  - 例子：用户张三, 45岁, 科技公司高管, 关注效率和隐私。
- 事实记忆(What)：世界是什么样的？
  - 例子：周一国博闭馆
- 经历记忆(When & How)：我们之间发生过什么？(事件日志, 交互历史, 成功/失败案例)
  - 例子： “上周我帮他预订了去东京的酒店,他当时要求要离地铁站近。”
- 偏好记忆(Why)：你喜欢什么,不喜欢什么？(价值取向, 情感倾向)
  - 例子： “他不喜欢冗长的邮件,但很看重数据的准确性。”
- 技能记忆(How)：我知道怎么做事吗？(工具使用, 工作流程)
  - 例子：我已经学会了如何通过公司内部系统帮他查询报销进度。

新的研究

MSA: Memory Sparse Attention
- https://github.com/EverMind-AI/MSA/blob/main/paper/MSA__Memory_Sparse_Attention_for_Efficient_End_to_End_Memory_Model_Scaling_to_100M_Tokens.pdf
N‑gram 统计记忆：Conditional Memory via Scalable Lookup
- https://arxiv.org/pdf/2601.07372
- 训练n-gram 统计词表,使用多hash存储
- 推理时，使用输入token 的最后几个，o1检索出n-gram词段, 拼接作为记忆特征
- 当前层input hidden向量做query , 记忆特征作为kv,计算点积注意力，得到权重
- 使用残差链接加到原来的input hidden
Cursor Composer2：Cyclic Self-Summarization Memory
- 训练时使用RL训练模型对之前历史的总结能力，对任务成功-高质量总结给奖励，对任务失败-丢失关键信息给惩罚
- 推理时达到上下文长度，使用短提示即可生成高质量总结

Context

定位：记忆、知识、可用工具好比是切好的各种配菜，茄子、辣椒、香料、肉等原料，context 就好比配菜师，会按照厨师要炒的菜，挑选合适的原料，搭配出最终厨师所需要的所有材料，需要挑选、配比、控制用量等
注入手段
核心流程
未来方向和挑战
- Real-World Benchmarking and Evaluations
- Life-Long Personalization and Truthworthy Memory
- Multi-Human-Agent Memory Organization
- Memory for Multimodal, Embodied, World-Model Agents
- Memory Infrastructure and Efficiency
- Memory for Self-Evolving Agent And Continual Learning

设计模式

控制方式

ReAct(Think-Act-Oberve)
Self-Reflection
Evaluator-Optimizer

流程类型

链式型

Prompt Chaining
Routing

反应型/循环型

规划型

Plan-and-Execute

并行型

Orchestrator-Workers
投票
任务分片

数量

Single-Agent
Multi-Agent

评估

常见BenchMark

LongMemEval
- 核心评估：长对话记忆、跨会话信息追踪、时序推理、信息更新、记忆可靠性与抗幻觉能力
- 核心任务：在超长多轮对话与跨会话历史中，完成信息提取、时序理解、偏好更新追踪，并对无足够记忆信息的问题主动弃权，不编造内容
MMLU / C-Eval
- 核心评估：常识储备、知识准确性、事实正确性
- 核心任务：涵盖百科、生活常识、健康、交通、法律等贴近日常科目的知识问答，保障语音助手回答的知识可靠性
TruthfulQA
- 核心评估：回答的事实真实度、对不确定问题的回避能力、拒绝编造信息的能力
- 核心任务：针对各类事实性问题（含模糊、易混淆问题）进行回答，严控语音助手的幻觉问题，保障回答真实性
AgentBench
- 核心评估：多步任务规划、工具调用能力、环境交互能力、长程决策能力
- 核心任务：涵盖OS、数据库、网页交互等8大环境的多步骤任务（5-50步），模拟语音助手“澄清→调用工具→执行任务”的完整流程
GAIA（General AI Assistant Benchmark）
- 核心评估：真实世界复杂任务处理、逻辑推理、自主搜索、工具使用、多模态理解能力
- 核心任务：450个真实世界多难度（基础/中等/困难）任务，无固定答案格式，模拟语音用户模糊、开放的生活化提问场景
MT-Bench
- 核心评估：多轮对话质量、回答有用性、表达自然度、对话连贯性、规则遵循度
- 核心任务：多轮真实口语对话交互，模拟语音助手日常对话场景，保障对话流畅、自然且实用
τ-Bench
- 核心评估：任务单次成功率、多轮交互稳定性、规则约束遵循度、结果可复现性
- 核心任务：多轮规则约束下的任务执行，模拟语音助手多轮交互场景，检验其一致性和规则遵循能力

Metrics(量化指标)

基础语言模型能力指标
- 困惑度（Perplexity）：衡量模型的语言建模流畅度，数值越低语言能力越稳定
判别类指标
- Accuracy：(TP + TN) / (TP + FP + FN + TN)；预测对的 / 总数
- Precision：TP / (TP + FP)；预测对的里面有多少真值也是对的
- Recall：TP / (TP + FN)；预测和真值一致的里面有多少是对的
- F1：2 × Precision × Recall / (Precision + Recall)；精准率和召回率的平均
开放式生成质量指标
- BLEU：文本匹配度评估
- ROUGE：内容覆盖度评估
- BERTScore：对齐度评估
解题/代码类任务指标
- pass@k：对同一个问题采样 k 次，只要有一次通过就算成功。衡量的是模型的上限能力——“能不能做到”，而非"每次能不能做到"
- pass^k：对同一问题采样 k 次，全部通过才算成功。衡量的是模型的可靠性
检索/匹配类指标
- Recall@K：Top-K个检索结果中，命中目标信息的比例
- Precision@K：Top-K个检索结果中，相关结果的占比
系统效率/性能指标
- 分位数（P50/P90/P99）：衡量推理延迟的分布情况，评估模型的性能稳定性
综合能力维度
- 规划能力
- 工具使用能力
- 推理能力
- 记忆与上下文管理
- 指令遵循能力
- 鲁棒性
- 安全与对齐
- 效率

评估器

自动化测试环境
LLM as Judge
人工评估器
代码评估器

组成部分

测试用例集
评分标准
基线结果

安全

Prompt Injection
最小权限
必要工具集
敏感操作显式确认：敏感操作，用户确认，不静默执行
标注外部内容：外部内容标注来源，声明不可信，不可循序外部内容的指令
关键路径LLM验证

核心挑战和常见问题

涌现

评测指标错觉：涌现现象一定程度上是评价指标选择导致的错觉，评价指标非线性、不平滑
高阶统计规律拟合理论：小模型只能捕捉到低阶、局部、短程的统计规律（比如固定词搭配、简单语法）；当模型规模足够大，其拟合能力足以捕捉到数据中高阶、长程、全局的复杂统计规律
相变与临界现象理论：把大模型视为一个复杂的非线性动力学系统，参数量、数据量、训练步数是系统的「控制参数」。当控制参数突破临界阈值时，系统会发生非连续的相变（类似水从液态到固态的突变），宏观上就表现为能力的突然涌现
复合任务解锁理论：由多个基础子能力组合而成的复合任务。小模型只能掌握部分子能力，只要有一个子能力不达标，整体任务的成功率就接近 0；当模型规模突破阈值，能同时掌握所有必需的子能力、并完成子能力的协同组合时，整体任务的成功率就会出现阶跃式提升，看起来就是「突然涌现」

幻觉

数据驱动型：预训练和微调阶段知识缺失、偏差、分布错配
推理驱动型：推理时不稳定解码、多步逻辑放大
灾难性遗忘
对齐税
可解释性

常见分类和产品形态

Coding Agents

核心：以代码生成 + 系统命令为动作空间，通过可编程能力实现几乎无限扩展，目前最接近通用Agent的能力呈现
产品
- claude code
- codex

Research Agents

核心：以信息检索 + 学术推理 + 长文本处理为核心，逐步具备复杂问题拆解、多源信息整合、深度思考的能力
产品
- openai deepresearch
- autoglm

ComputerUser Agents

核心：以模拟人类用户的 GUI / 触屏操作为动作空间，直接在操作系统层面完成用户级任务，呈现出较强的平台泛化能力
产品
- 豆包手机

Conversational Agents

核心：以更贴近用户的自然语言交互为入口，以语音响应为核心动作空间，逐步集成工具调用、记忆与规划能力，最终演变为能够处理各类日常任务的通用助理
产品
- ChatGPT
- 豆包

小结

当前互联网基础设施高度适配碳基生命的交互与生产方式，硅基智能无法直接原生适配。各类 Agent 正是从代码、GUI、工具、知识、对话等不同动作空间切入，探索硅基大脑渐进式适应数字世界的路径。随着能力成熟，不同路线正在快速收敛，呈现出综合多种动作空间、走向通用智能体的清晰方向。
或许终有一天，我们会掀起一场彻底的基础设施革命，为硅基智能体，构筑属于它们的原生土壤

未来方向和挑战

当前主流 LLM 的训练体系以对话交互为核心目标，从 SFT 指令遵循到 RLHF 偏好对齐，全链路围绕更好地对话优化；而 Agent 场景要求 LLM 从对话应答器转向任务闭环执行器，其所需的多步路径规划、结构化工具调用、状态记忆跟踪、环境感知反馈、复杂人机协同等核心能力

多步决策路径学习

不理解动作的因果逻辑，只会背调用模板，不会根据目标选择正确动作
缺乏动作容错、重试能力，调用失败就无法推进任务

结构化动作空间学习

解决问题：现有LLM是自由文本输出，缺乏严格的动作格式约束，工具调用/API执行易出现格式错误、参数幻觉

状态与记忆学习

环境感知与反馈学习

人机交互协同学习

终身学习(Life-long Learning)

反馈体系

Ground truth（标准答案反馈，最难获取）：拿标准答案对照学习（最准但最难拿）
Numerical Feedback（数值打分反馈）：用户打好坏分、给奖励值
Verbalized Feedback（语言评价反馈）：用户用话评价（做得好 / 做错了）
Environment Feedback（环境 / 程序报错反馈）：系统 / 工具报错、环境结果反馈
No feedback（无反馈自学习）：没反馈也自己复盘、自己优化

学习方法

基于提示词的ICL：零样本学习，快速适配；临时推理和示例模仿，高度依赖专家知识，无法实现经验积累和策略迭代
上下文驱动的推理(ICL 路径学习)：提供稳定的行为起点；被动行为模仿，无法应对错误累计、分布偏移、长期目标优化问题
监督式行为学习：基于示范路径标注的 SFT
强化学习策略优化：基于稀疏延迟奖励的信号的价值函数和决策策略学习；自主挖掘最优路径；修正行为偏差；持续策略进化
增强型规划与序列建模

挑战

状态空间复杂
奖励稀疏且延迟
长程信用分配困难
操作路径指数级增长

AI综述 on 我的博客

智能语音架构演进史以及Agent时代新思考

语音架构抽象

1) 声学

2) 理解

3) 决策

4) 执行

五个时代

时代一：信号初探（1950s–1980s）

架构：声音信号特征提取和规则匹配

代表案例与瓶颈

里程碑：

痛点：

时代二：统计时代（1990s-2014）

架构：模块化分工的"工厂流水线"

示例流程：

步骤1：提取声音特征（MFCC）

步骤2：声学模型识别音素（GMM-HMM）

步骤3：语言模型纠错（N-gram）

步骤4：语义理解（NLU）

步骤5：决策与执行

代表案例与瓶颈

里程碑：

痛点：

时代三：深度神经网络时代（2015-2018）

架构：神经网络栈的模块化替换

示例流程：

步骤1：远场音频预处理

步骤2：端到端ASR识别

步骤3：神经化NLU

步骤4：Skill路由与决策

步骤5：TTS语音合成

代表案例与瓶颈

时代四：Transformer与预训练时代（2019-2022）

架构：预训练+微调的新范式

示例流程：

步骤1：远场音频预处理

步骤2：Conformer ASR识别

步骤3：预训练NLU理解

步骤4：Skill路由与决策

步骤5：生成式NLG

步骤6：FastSpeech + HiFi-GAN合成

代表案例与瓶颈

时代五：大模型与Agent时代（2023-）

趋势一：换脑与 Scaling Law（2023-2024）

趋势二：多模态统一与 Test-Time Scaling（2024-2025）

趋势三：Agentic System 与强化学习（2025-）

架构：Agent 系统 = LLM 负责规划决策 + 工具负责确定性执行，把对话变成“能办成事”的闭环。

示例流程：

步骤1：多模态感知（可选端到端路径）

步骤2：LLM Orchestrator 选择 Agent

步骤3：Agent 加载 Skill 并制定计划

步骤4：执行-观察-反思循环

代表案例与瓶颈

产品实践

瓶颈

核心洞察

1. 从专家知识驱动到数据驱动

2. 端到端演进与优化重心上移

3. 从识别理解到任务规划

4. 向概率系统演进

5. 专业分工的模糊化

相关引用

LLM Based Agent

LLM Based Agent

概念、定义

历史由来

模型类型和分类

模型架构

模态

参数激活模式

思维链

核心架构

输入预处理层

Transformer Block

注意力机制

注意力机制变体

输出层（LM Head）

上下文缓存

训练体系