Brook'Log

从人机关系重新理解Agent工程范式的变化

认知的“肿块” 从早期的 Prompt Engineering，到 2025 年年中的 Context Engineering，再到 2026 年初的 Harness Engineering，现在又来到了 Loop Engineering，层出不穷的术语迭代让人眼花缭乱，上一个还没捂热呢，新的又来了。这是全新的发明创造，还是别有用心的人刻意贩卖的文字游戏呢？也许兼而有之 ...

从 Qwen2.5-Omni AUT 表征到 Whisper Decoder：一次车载 ASR 旁路实验复盘

车载语音助手里，端到端 Omni 模型有一个很吸引人的方向：用户说话后，不再先跑独立 ASR 再把文本送进大模型，而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样做的好处很明显——减少级联系信息损失，语音里的停顿、语气和上下文也能被模型利用。 ...

小女出生记

Claude Harness分析

写在前面 Claude Code 推出后，业界便一直有人从多维度探究其出色体验的原因，包括Claude 也经常对外分享其设计思路。如今源码泄露，各类解读更是层出不穷，但质量参差不齐、视角各异 —— 要么过于细碎，要么过于笼统，往往我们真正关心的内容寥寥，信息熵较低，不如结合自身需求与业务特性，自己扒一扒源码 ...

智能语音架构演进史以及Agent时代新思考

从科幻电影“Her”与漫威中的“贾维斯” 开始，人类一直幻想拥有一个可以像人一样的无所不能但毫无抱怨的智能助手。为此，业界前仆后继，始终在探索使用各种技术逼近这种“能听懂、会执行”的理想形态：从贝尔实验室在 1950 年代实现对 0–9 数字的识别，到 Siri、Alexa 等面向指令式需求的智能语音助手，再到国内小爱、小度、天猫精灵等覆盖生态设备控制的产品，都是这一路探索的里程碑。 ...

The Anatomy of an LLM-Based Agent

概念、定义 LLM-based Agent 是以大语言模型为核心(“大脑”)，具备感知、规划、记忆和工具使用能力，能够自主理解复杂目标并采取行动以达成任务的系统。历史由来哲学与控制论中早已提出 Agent 是自主做出行为，拥有能动性的主体，提出感知-反馈-行动的闭环系统，是智能体结构的雏形 AI早期(before统计学习时代) 出现了多智能体系统MAS, 将Agent看作自主的软件实体，并通过BDI模型让 Agent 更像"有思维"的主体强化学习中给出了Agent严格和清晰的数学定义，从此有了统一框架：感知-> 决策 -> 行动 -> 奖励大模型时代Agent 不再是简单的决策单元，而是能自主规划、能使用工具、能够执行复杂任务的系统基本构成大脑（大模型）模型类型和分类模型架构 DecoderOnly Prefix-Decoder UniLM 多模态Decoder Causal-Decoder GPT系列 EncoderOnly BERT EncoderDecoder T5、BART Diffusion Model MDLM、D3LM 扩散语言模型：通过前向加噪与反向去噪生成文本，非自回归并行生成模态 LLM VLM S(Speech)LM Omni 参数激活模式稠密模型 GPT3 Llama 稀疏模型混合专家模型（MOE） Mixtral Deepseek V2 思维链有 DeepSeek R1 无 Deepseek V1 动态核心架构输入预处理层分词（BPE） BPE（Byte Pair Encoding）：先拆到最小粒度（单字符 / 字节），再按频率合并，让高频组合变成一个 token，低频的保留细粒度具体做法离线预训练数据跑BPE, 得到词表，高频词+单字符+UTF8字节预训练数据按词表分成token Id, 进行训练推理使用词表继续tokenizer 转换成词元Id 词嵌入位置编码绝对位置正弦位置编码可学习绝对位置编码相对位置旋转位置编码（RoPE） RoPE M-RoPE TM-RoPE ALiBi 不添加position embedding, 直接在attention加上 k(m-n) Transformer Block 多头拆分与 KV 组织 MHA(Multi-Head Attention)：标准多头，将 Q/K/V 均拆分为相同数量的独立头，各自计算注意力后拼接 MQA(Multi-Query Attention)：保持多头 Q 不变，所有 Q 头共享同一套 KV 头 GQA(Grouped-Query Attention)：将 Q 头分为若干组，每组共享一套独立的 KV 头，是 MHA 与 MQA 的折中方案 MLA (Multi-head Latent Attention)：通过低秩联合投影将所有头的 KV 压缩到一个小维度潜在空间，推理时仅缓存低维潜在向量注意力机制 QKV变化矩阵注意力分数计算掩码机制（因果掩码）注意力分数dropout 注意力权重计算上下文向量计算注意力机制变体 Sliding Window Attention：按固定窗口限定 KV 存储范围，只保留近期窗口内的 KV，从缓存长度上缩减 KV 占用 ...

拉里与伊莎贝尔的谈话

一个钟头后，拉里来接伊莎贝尔。他们搭了出租车去圣米歇尔桥，漫步在行人川流不息的大街上。两人走着走着，看中了一家咖啡馆，便走了进去。他们在露台坐着，点了两杯杜本内甜酒。之后，两人又叫了出租车前往一家餐厅。 ...

神经网络中的记忆问题

注：此文为我个人的胡思乱想，并没有严谨的学术论文进行佐证 Memory is all you need 使用这个副标题是借用 transformer 论文中的 “Attention is all you need”，虽然记忆不是神经网络中的必要的部分，却是进行序列处理时的必要的部分 ...