你好,欢迎来到我的博客 👋

这里记录我的技术探索、生活感悟与点滴思考。希望这些文字能对你有所帮助或启发。

智能语音架构演进史以及Agent时代新思考

从科幻电影“Her”与漫威中的“贾维斯” 开始,人类一直幻想拥有一个可以像人一样的无所不能但毫无抱怨的智能助手。为此,业界前仆后继,始终在探索使用各种技术逼近这种“能听懂、会执行”的理想形态:从贝尔实验室在 1950 年代实现对 0–9 数字的识别,到 Siri、Alexa 等面向指令式需求的智能语音助手,再到国内小爱、小度、天猫精灵等覆盖生态设备控制的产品,都是这一路探索的里程碑。 ...

2026年1月28日 · 29 分钟 · 14156 字 · 博主

LLM Based Agent

LLM Based Agent 概念、定义 LLM-based Agent 是以大语言模型为核心(“大脑”),具备感知、规划、记忆和工具使用能力,能够自主理解复杂目标并采取行动以达成任务的系统。 历史由来 哲学与控制论中早已提出 Agent 是自主做出行为,拥有能动性的主体,提出感知-反馈-行动的闭环系统,是智能体结构的雏形 AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体,并通过BDI模型让 Agent 更像"有思维"的主体 强化学习中给出了Agent严格和清晰的数学定义,从此有了统一框架:感知-> 决策 -> 行动 -> 奖励 大模型时代Agent 不再是简单的决策单元,而是能自主规划、能使用工具、能够执行复杂任务的系统 模型类型和分类 模型架构 DecoderOnly Prefix-Decoder Causal-Decoder GPT系列 EncoderOnly BERT EncoderDecoder T5、BART UniLM 多模态Decoder 模态 LLM VLM S(Speech)LM Omni 参数激活模式 稠密模型 GPT3 Llama Deepseek V1 稀疏模型 混合专家模型(MOE) Mixtral Deepseek V2 思维链 有 DeepSeek R1 无 核心架构 输入预处理层 分词(BPE) 先拆到最小粒度(单字符 / 字节),再按频率合并,让高频组合变成一个 token,低频的保留细粒度 离线预训练数据跑BPE, 得到词表,高频词+单字符+UTF8字节 预训练数据按词表分成token Id, 进行训练 推理使用词表继续tokenizer 词嵌入 转换成词元Id 位置编码 绝对位置 正弦位置编码 可学习绝对位置编码 相对位置 旋转位置编码(RoPE) M-RoPE TM-RoPE ALiBi 不添加position embedding, 直接在attention加上 k(m-n) Transformer Block 多头拆分与 KV 组织 MHA(Multi-Head Attention):标准多头,将 Q/K/V 均拆分为相同数量的独立头,各自计算注意力后拼接 MQA(Multi-Query Attention):保持多头 Q 不变,所有 Q 头共享同一套 KV 头 GQA(Grouped-Query Attention):将 Q 头分为若干组,每组共享一套独立的 KV 头,是 MHA 与 MQA 的折中方案 MLA (Multi-head Latent Attention):通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间,推理时仅缓存低维潜在向量 注意力机制 QKV变化矩阵 注意力分数计算 掩码机制(因果掩码) 注意力分数dropout 注意力权重计算 上下文向量计算 注意力机制变体 Sliding Window Attention:按固定窗口限定 KV 存储范围,只保留近期窗口内的 KV,从缓存长度上缩减 KV 占用 Streaming LLM:动态组织 KV 缓存策略,保留锚点与近期 KV、丢弃中间冗余部分,实现长文本下的 KV 缓存轻量化 前馈网络(FFN) 层归一化(LayerNorm) 残差连接 输出层(LM Head) 上下文缓存 KV cache:单次推理的自回归生成阶段,复用之前已经计算好的 Key 和 Value 向量,避免对整个上下文序列重复计算注意力 Prompt cache:将固定或重复出现的 Prompt 片段(如系统提示、长上下文前缀)的 KV 结果预先缓存,在多轮对话或相似请求中直接复用 KV Cache优化 Pruning KV Cache:裁剪部分不重要的低贡献KV, 压缩缓存体积 训练体系 预训练 核心目标:通用语言能力、世界知识与基础逻辑习得 训练任务 掩码语言建模(Masked Language Modeling) 因果语言建模(Causal Language Modeling) 序列到序列(Sequence-To-Sequence) 判别式任务(Discriminative Tasks) 后训练 有监督微调(SFT) 核心目标:构建模型指令遵循、基础工具调用和基础任务规划能力;完成模型的基础意图、安全合规与价值观对齐 方式 全参微调 参数高效微调(PEFT) LoRA(低秩更新) QLoRA:4-bit 存底座 + 16-bit 动态反量化计算 + 只训 16-bit LoRA;原始参数4bit 分块量化存储;前向传播 16bit 动态反量化计算;16bit LoRA 更新 Adapter(插入小网络) Soft Prompt(训练提示向量) Prompt Tuning:输入层软提示 P-Tuning v1 Prefix Tuning:每层 K/V 前缀 P-Tuning v2(≈ Prefix Tuning) 强化学习(RL)增强 核心目标:优化输出的人类偏好匹配度、安全合规性、无害性;习得复杂任务的规划路径、工具调用决策、环境交互与错误修正能力;基于业务场景优化 Agent 执行路径,提升业务任务完成率 方式 RLHF(基于人类反馈的强化学习) RLAIF(基于 AI 反馈的强化学习) RLVR(可验证奖励的强化学习) 核心算法:PPO Actor Model(SFT after model) Reword Model(建模人类偏好) Reference Model(冻结参数的SFT after model) Critic Model(给出方向指南) 业务适配微调 部署和推理优化 计算优化 量化 8bit/4bit量化 GPTQ、AWQ GGUF量化 算子融合 flash Attention:QK 相似度计算、掩码、Softmax、Dropout、权重与 V 加权 等多个算子融合为单一算子,并通过分块计算减少 HBM 与 SRAM 之间的数据搬运,从而实现推理加速与显存优化 张量并行 批处理优化:多个独立的生成任务打包成一个「批次(batch)」,让模型一次前向同时处理所有任务 解码加速 生成解码策略 确定性解码策略 贪婪解码 随机采样策略 温度缩放 top-k top-p 对比式解码策略(研究) Contrastive Decoding:找到推理里的无效噪声表征,用主模型的有效推理结果减去它,来放大正确内容的选中概率 DoLa:使用最终层的表征,减去中间层的表征,认为中间层的输出大概率是错误的 LayerCD:使用最终层的表征,减去初始层的表征,初始层往往是比较直觉不符合预期的答案 ICD(Instruct):给模型一个降智的prompt得到错误的表征,用来减去 CAD(Context-Aware):给模型上下文的推理表征减去没有引入上下文知识的推理表征 Contrastive Search(对比搜索,可选补充,同属对比类解码) Speculative Decoding:采用小模型快速推测多轮候选token,由大模型单次前向完成批量校验,通过减少大模型推理次数实现生成加速 重复控制 presence_penalty 基本构成 大脑(大模型) 感知 用户输入 文本 语音 图像 视频 文件 GUI操作 环境采集 系统事件 工具 Tool Call 狭义单函数调用(FunctionCall) Programmatic Tool Calling Tool Search 工具接入标准与协议 MCP:自定义工具接入协议;对于非开放Agent而言,MCP协议更多的是对齐工具,对齐之后需要自定义工具协议,已达到最佳能效比 自定义工具接入协议 落地常见问题 数量爆炸 工具范围模糊、交叉 Ghost工具, Agent不会使用的工具 对偶工具、查询工具碎片化 描述不精准,范围超出、不足、参数和描述不对齐 RAG Skills 索引式 Skill 元数据预注入(常驻索引层) Skill 核心规则指令全量注入 Skill 配套资源精准按需注入 本质是 模型主导的渐进式知识注入,是某种任务agent的语义抽象 记忆和知识 定位:唯一对接全模块原始信息、唯一向决策核心(大模型 / 大脑)交付标准化推理素材的专职中枢,是 Agent 系统的「专属配菜师」与「专职案卷整理员」:它不生产原始信息、不做任务决策,仅负责将感知、记忆、工具等模块输出的零散异构原始信息,完成标准化加工、合规性校验、有序整合,最终交付给决策核心唯一可直接使用的完整合规推理素材,是串联 Agent 全链路信息流转的核心枢纽 记忆载体 外部记忆 内部记忆 模型权重 潜状态 k-v cache 记忆运行机制 存储&索引 加载&检索 更新&刷新 压缩&摘要 遗忘&保留 记忆分类 工作记忆 短期记忆 长期记忆 for user for assistant 记忆类型 画像记忆(Who): 你是谁?(用户画像) 例子: 用户张三, 45岁, 科技公司高管, 关注效率和隐私。 事实记忆(What): 世界是什么样的? 例子:周一国博闭馆 经历记忆(When & How): 我们之间发生过什么?(事件日志, 交互历史, 成功/失败案例) 例子: “上周我帮他预订了去东京的酒店,他当时要求要离地铁站近。” 偏好记忆(Why): 你喜欢什么,不喜欢什么?(价值取向, 情感倾向) 例子: “他不喜欢冗长的邮件,但很看重数据的准确性。” 技能记忆(How): 我知道怎么做事吗?(工具使用, 工作流程) 例子: 我已经学会了如何通过公司内部系统帮他查询报销进度。 新的研究 MSA: Memory Sparse Attention https://github.com/EverMind-AI/MSA/blob/main/paper/MSA__Memory_Sparse_Attention_for_Efficient_End_to_End_Memory_Model_Scaling_to_100M_Tokens.pdf N‑gram 统计记忆:Conditional Memory via Scalable Lookup https://arxiv.org/pdf/2601.07372 训练n-gram 统计词表,使用多hash存储 推理时,使用输入token 的最后几个,o1检索出n-gram词段, 拼接作为记忆特征 当前层input hidden向量做query , 记忆特征作为kv,计算点积注意力,得到权重 使用残差链接加到原来的input hidden Cursor Composer2:Cyclic Self-Summarization Memory 训练时使用RL训练模型对之前历史的总结能力,对任务成功-高质量总结给奖励,对任务失败-丢失关键信息给惩罚 推理时达到上下文长度,使用短提示即可生成高质量总结 Context 定位:记忆、知识、可用工具好比是切好的各种配菜,茄子、辣椒、香料、肉等原料,context 就好比配菜师,会按照厨师要炒的菜,挑选合适的原料,搭配出最终厨师所需要的所有材料,需要挑选、配比、控制用量等 注入手段 核心流程 未来方向和挑战 Real-World Benchmarking and Evaluations Life-Long Personalization and Truthworthy Memory Multi-Human-Agent Memory Organization Memory for Multimodal, Embodied, World-Model Agents Memory Infrastructure and Efficiency Memory for Self-Evolving Agent And Continual Learning 设计模式 控制方式 ReAct(Think-Act-Oberve) Self-Reflection Evaluator-Optimizer 流程类型 链式型 Prompt Chaining Routing 反应型/循环型 规划型 Plan-and-Execute 并行型 Orchestrator-Workers 投票 任务分片 数量 Single-Agent Multi-Agent 评估 常见BenchMark LongMemEval 核心评估:长对话记忆、跨会话信息追踪、时序推理、信息更新、记忆可靠性与抗幻觉能力 核心任务:在超长多轮对话与跨会话历史中,完成信息提取、时序理解、偏好更新追踪,并对无足够记忆信息的问题主动弃权,不编造内容 MMLU / C-Eval 核心评估:常识储备、知识准确性、事实正确性 核心任务:涵盖百科、生活常识、健康、交通、法律等贴近日常科目的知识问答,保障语音助手回答的知识可靠性 TruthfulQA 核心评估:回答的事实真实度、对不确定问题的回避能力、拒绝编造信息的能力 核心任务:针对各类事实性问题(含模糊、易混淆问题)进行回答,严控语音助手的幻觉问题,保障回答真实性 AgentBench 核心评估:多步任务规划、工具调用能力、环境交互能力、长程决策能力 核心任务:涵盖OS、数据库、网页交互等8大环境的多步骤任务(5-50步),模拟语音助手“澄清→调用工具→执行任务”的完整流程 GAIA(General AI Assistant Benchmark) 核心评估:真实世界复杂任务处理、逻辑推理、自主搜索、工具使用、多模态理解能力 核心任务:450个真实世界多难度(基础/中等/困难)任务,无固定答案格式,模拟语音用户模糊、开放的生活化提问场景 MT-Bench 核心评估:多轮对话质量、回答有用性、表达自然度、对话连贯性、规则遵循度 核心任务:多轮真实口语对话交互,模拟语音助手日常对话场景,保障对话流畅、自然且实用 τ-Bench 核心评估:任务单次成功率、多轮交互稳定性、规则约束遵循度、结果可复现性 核心任务:多轮规则约束下的任务执行,模拟语音助手多轮交互场景,检验其一致性和规则遵循能力 Metrics(量化指标) 基础语言模型能力指标 困惑度(Perplexity):衡量模型的语言建模流畅度,数值越低语言能力越稳定 判别类指标 Accuracy:(TP + TN) / (TP + FP + FN + TN);预测对的 / 总数 Precision:TP / (TP + FP);预测对的里面有多少真值也是对的 Recall:TP / (TP + FN);预测和真值一致的里面有多少是对的 F1:2 × Precision × Recall / (Precision + Recall);精准率和召回率的平均 开放式生成质量指标 BLEU:文本匹配度评估 ROUGE:内容覆盖度评估 BERTScore:对齐度评估 解题/代码类任务指标 pass@k:对同一个问题采样 k 次,只要有一次通过就算成功。衡量的是模型的上限能力——“能不能做到”,而非"每次能不能做到" pass^k:对同一问题采样 k 次,全部通过才算成功。衡量的是模型的可靠性 检索/匹配类指标 Recall@K:Top-K个检索结果中,命中目标信息的比例 Precision@K:Top-K个检索结果中,相关结果的占比 系统效率/性能指标 分位数(P50/P90/P99):衡量推理延迟的分布情况,评估模型的性能稳定性 综合能力维度 规划能力 工具使用能力 推理能力 记忆与上下文管理 指令遵循能力 鲁棒性 安全与对齐 效率 评估器 自动化测试环境 LLM as Judge 人工评估器 代码评估器 组成部分 测试用例集 评分标准 基线结果 安全 Prompt Injection 最小权限 必要工具集 敏感操作显式确认:敏感操作,用户确认,不静默执行 标注外部内容:外部内容标注来源,声明不可信,不可循序外部内容的指令 关键路径LLM验证 核心挑战和常见问题 涌现 评测指标错觉:涌现现象一定程度上是评价指标选择导致的错觉,评价指标非线性、不平滑 高阶统计规律拟合理论:小模型只能捕捉到低阶、局部、短程的统计规律(比如固定词搭配、简单语法);当模型规模足够大,其拟合能力足以捕捉到数据中高阶、长程、全局的复杂统计规律 相变与临界现象理论:把大模型视为一个复杂的非线性动力学系统,参数量、数据量、训练步数是系统的「控制参数」。当控制参数突破临界阈值时,系统会发生非连续的相变(类似水从液态到固态的突变),宏观上就表现为能力的突然涌现 复合任务解锁理论:由多个基础子能力组合而成的复合任务。小模型只能掌握部分子能力,只要有一个子能力不达标,整体任务的成功率就接近 0;当模型规模突破阈值,能同时掌握所有必需的子能力、并完成子能力的协同组合时,整体任务的成功率就会出现阶跃式提升,看起来就是「突然涌现」 幻觉 数据驱动型:预训练和微调阶段知识缺失、偏差、分布错配 推理驱动型:推理时不稳定解码、多步逻辑放大 灾难性遗忘 对齐税 可解释性 常见分类和产品形态 Coding Agents 核心:以代码生成 + 系统命令为动作空间,通过可编程能力实现几乎无限扩展,目前最接近通用Agent的能力呈现 产品 claude code codex Research Agents 核心:以信息检索 + 学术推理 + 长文本处理为核心,逐步具备复杂问题拆解、多源信息整合、深度思考的能力 产品 openai deepresearch autoglm ComputerUser Agents 核心:以模拟人类用户的 GUI / 触屏操作为动作空间,直接在操作系统层面完成用户级任务,呈现出较强的平台泛化能力 产品 豆包手机 Conversational Agents 核心:以更贴近用户的自然语言交互为入口,以语音响应为核心动作空间,逐步集成工具调用、记忆与规划能力,最终演变为能够处理各类日常任务的通用助理 产品 ChatGPT 豆包 小结 当前互联网基础设施高度适配碳基生命的交互与生产方式,硅基智能无法直接原生适配。各类 Agent 正是从代码、GUI、工具、知识、对话等不同动作空间切入,探索硅基大脑渐进式适应数字世界的路径。随着能力成熟,不同路线正在快速收敛,呈现出综合多种动作空间、走向通用智能体的清晰方向。 或许终有一天,我们会掀起一场彻底的基础设施革命,为硅基智能体,构筑属于它们的原生土壤 未来方向和挑战 当前主流 LLM 的训练体系以对话交互为核心目标,从 SFT 指令遵循到 RLHF 偏好对齐,全链路围绕更好地对话 优化;而 Agent 场景要求 LLM 从对话应答器转向任务闭环执行器,其所需的多步路径规划、结构化工具调用、状态记忆跟踪、环境感知反馈、复杂人机协同等核心能力 多步决策路径学习 不理解动作的因果逻辑,只会背调用模板,不会根据目标选择正确动作 缺乏动作容错、重试能力,调用失败就无法推进任务 结构化动作空间学习 解决问题:现有LLM是自由文本输出,缺乏严格的动作格式约束,工具调用/API执行易出现格式错误、参数幻觉 状态与记忆学习 环境感知与反馈学习 人机交互协同学习 终身学习(Life-long Learning) 反馈体系 Ground truth(标准答案反馈,最难获取):拿标准答案对照学习(最准但最难拿) Numerical Feedback(数值打分反馈):用户打好坏分、给奖励值 Verbalized Feedback(语言评价反馈):用户用话评价(做得好 / 做错了) Environment Feedback(环境 / 程序报错反馈):系统 / 工具报错、环境结果反馈 No feedback(无反馈自学习):没反馈也自己复盘、自己优化 学习方法 基于提示词的ICL:零样本学习,快速适配;临时推理和示例模仿,高度依赖专家知识,无法实现经验积累和策略迭代 上下文驱动的推理(ICL 路径学习):提供稳定的行为起点;被动行为模仿,无法应对错误累计、分布偏移、长期目标优化问题 监督式行为学习:基于示范路径标注的 SFT 强化学习策略优化:基于稀疏延迟奖励的信号的价值函数和决策策略学习;自主挖掘最优路径;修正行为偏差;持续策略进化 增强型规划与序列建模 挑战 状态空间复杂 奖励稀疏且延迟 长程信用分配困难 操作路径指数级增长

2025年12月7日 · 13 分钟 · 6353 字 · 博主

拉里与伊莎贝尔的谈话

一个钟头后,拉里来接伊莎贝尔。他们搭了出租车去圣米歇尔桥,漫步在行人川流不息的大街上。两人走着走着,看中了一家咖啡馆,便走了进去。他们在露台坐着,点了两杯杜本内甜酒。之后,两人又叫了出租车前往一家餐厅。伊莎贝尔的胃口很好,拉里点的各式美食她都吃得津津有味。这家餐厅挤得水泄不通,她喜欢观察周遭紧挨着的客人,看着他们对眼前的食物啧啧称奇,不禁令人发噱。但她最为开心的事,莫过于跟拉里坐在一张小桌前。伊莎贝尔说得兴高采烈之时,拉里的眼神洋溢着喜悦,令她深深倾心。两人相处起来这么舒服自在,让人心醉神迷。可是,伊莎贝尔内心却隐约感到不安,因为即使他看起来也很自在,她却觉得这并非自己的缘故,而是环境使然。她母亲早上那席话令她有些动摇,眼下虽漫无边际地聊着,她却注意着他的每个神情。现在的拉里和离开芝加哥前的他不太一样,但也说不上来哪里不同。他依然年轻、坦率,但神情已有变化,并非变得严肃,毕竟他放松时向来如此,而是有种备感陌生的笃定感,仿佛看开了某些事情,比以往更多了份泰然自若。两人吃完午餐后,拉里提议去卢森堡博物馆晃晃。 “不要,我不想去看画。​” “好吧,那我们到花园坐坐吧。​” “我也不想去花园,我想看看你住的地方。​” “没什么好看的,我住在旅馆里,而且房间很小。​” “艾略特舅舅说你有栋公寓,还跟一位画家的模特儿同居。​” “那你就亲自看看吧,​”他笑着说, ​“离这里没几步路,我们可以走过去。​” 他带她穿越了几条弯曲难走的窄巷,尽管两旁高楼中可窥见一线蓝天,仍旧显得阴暗肮脏。走了一会儿,两人停在了一家外表装修得很离谱的小旅馆门口。 “就是这儿。​” ...

2024年10月23日 · 13 分钟 · 6122 字 · 博主

溪柳自摇

读书与写作的目的是满足自己的求知

2024年10月16日 · 1 分钟 · 16 字 · 博主