从 Qwen2.5-Omni AUT 表征到 Whisper Decoder:一次车载 ASR 旁路实验复盘

在车载语音助手里,端到端 Omni 模型有一个很有吸引力的方向:用户说话之后,不再先走独立 ASR,再把文本送给大模型,而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样可以减少级联系统中的信息损失,也能让模型利用语音里的停顿、语气和上下文。 ...

2026年5月31日 · 10 分钟 · 4820 字 · 博主