晴耕雨读,溪柳自摇

一等人修身齐家,两家事读书耕田

从 Qwen2.5-Omni AUT 表征到 Whisper Decoder:一次车载 ASR 旁路实验复盘

车载语音助手里,端到端 Omni 模型有一个很吸引人的方向:用户说话后,不再先跑独立 ASR 再把文本送进大模型,而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样做的好处很明显——减少级联系信息损失,语音里的停顿、语气和上下文也能被模型利用。 ...

2026年5月31日 · 8 分钟 · 3709 字 · brook

Claude Harness分析

写在前面 Claude Code 推出后,业界便一直有人从多维度探究其出色体验的原因,包括Claude 也经常对外分享其设计思路。如今源码泄露,各类解读更是层出不穷,但质量参差不齐、视角各异 —— 要么过于细碎,要么过于笼统,往往我们真正关心的内容寥寥,信息熵较低,不如结合自身需求与业务特性,自己扒一扒源码 ...

2026年4月5日 · 38 分钟 · 18873 字 · brook

智能语音架构演进史以及Agent时代新思考

从科幻电影“Her”与漫威中的“贾维斯” 开始,人类一直幻想拥有一个可以像人一样的无所不能但毫无抱怨的智能助手。为此,业界前仆后继,始终在探索使用各种技术逼近这种“能听懂、会执行”的理想形态:从贝尔实验室在 1950 年代实现对 0–9 数字的识别,到 Siri、Alexa 等面向指令式需求的智能语音助手,再到国内小爱、小度、天猫精灵等覆盖生态设备控制的产品,都是这一路探索的里程碑。 ...

2026年1月28日 · 29 分钟 · 14156 字 · brook

The Anatomy of an LLM-Based Agent

概念、定义 LLM-based Agent 是以大语言模型为核心(“大脑”),具备感知、规划、记忆和工具使用能力,能够自主理解复杂目标并采取行动以达成任务的系统。 历史由来 哲学与控制论中早已提出 Agent 是自主做出行为,拥有能动性的主体,提出感知-反馈-行动的闭环系统,是智能体结构的雏形 AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体,并通过BDI模型让 Agent 更像"有思维"的主体 强化学习中给出了Agent严格和清晰的数学定义,从此有了统一框架:感知-> 决策 -> 行动 -> 奖励 大模型时代Agent 不再是简单的决策单元,而是能自主规划、能使用工具、能够执行复杂任务的系统 基本构成 大脑(大模型) 模型类型和分类 模型架构 DecoderOnly Prefix-Decoder UniLM 多模态Decoder Causal-Decoder GPT系列 EncoderOnly BERT EncoderDecoder T5、BART Diffusion Model MDLM、D3LM 扩散语言模型:通过前向加噪与反向去噪生成文本,非自回归并行生成 模态 LLM VLM S(Speech)LM Omni 参数激活模式 稠密模型 GPT3 Llama 稀疏模型 混合专家模型(MOE) Mixtral Deepseek V2 思维链 有 DeepSeek R1 无 Deepseek V1 动态 核心架构 输入预处理层 分词(BPE) BPE(Byte Pair Encoding):先拆到最小粒度(单字符 / 字节),再按频率合并,让高频组合变成一个 token,低频的保留细粒度 具体做法 离线预训练数据跑BPE, 得到词表,高频词+单字符+UTF8字节 预训练数据按词表分成token Id, 进行训练 推理使用词表继续tokenizer 转换成词元Id 词嵌入 位置编码 绝对位置 正弦位置编码 可学习绝对位置编码 相对位置 旋转位置编码(RoPE) RoPE M-RoPE TM-RoPE ALiBi 不添加position embedding, 直接在attention加上 k(m-n) Transformer Block 多头拆分与 KV 组织 MHA(Multi-Head Attention):标准多头,将 Q/K/V 均拆分为相同数量的独立头,各自计算注意力后拼接 MQA(Multi-Query Attention):保持多头 Q 不变,所有 Q 头共享同一套 KV 头 GQA(Grouped-Query Attention):将 Q 头分为若干组,每组共享一套独立的 KV 头,是 MHA 与 MQA 的折中方案 MLA (Multi-head Latent Attention):通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间,推理时仅缓存低维潜在向量 注意力机制 QKV变化矩阵 注意力分数计算 掩码机制(因果掩码) 注意力分数dropout 注意力权重计算 上下文向量计算 注意力机制变体 Sliding Window Attention:按固定窗口限定 KV 存储范围,只保留近期窗口内的 KV,从缓存长度上缩减 KV 占用 ...

2025年12月7日 · 15 分钟 · 7125 字 · brook

拉里与伊莎贝尔的谈话

一个钟头后,拉里来接伊莎贝尔。他们搭了出租车去圣米歇尔桥,漫步在行人川流不息的大街上。两人走着走着,看中了一家咖啡馆,便走了进去。他们在露台坐着,点了两杯杜本内甜酒。之后,两人又叫了出租车前往一家餐厅。 ...

2024年10月23日 · 15 分钟 · 7348 字 · brook

溪柳自摇

读书与写作的目的是满足自己的求知

2024年10月16日 · 1 分钟 · 16 字 · brook