从 Qwen2.5-Omni AUT 表征到 Whisper Decoder:一次车载 ASR 旁路实验复盘
在车载语音助手里,端到端 Omni 模型有一个很有吸引力的方向:用户说话之后,不再先走独立 ASR,再把文本送给大模型,而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样可以减少级联系统中的信息损失,也能让模型利用语音里的停顿、语气和上下文。 ...
在车载语音助手里,端到端 Omni 模型有一个很有吸引力的方向:用户说话之后,不再先走独立 ASR,再把文本送给大模型,而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样可以减少级联系统中的信息损失,也能让模型利用语音里的停顿、语气和上下文。 ...
从科幻电影“Her”与漫威中的“贾维斯” 开始,人类一直幻想拥有一个可以像人一样的无所不能但毫无抱怨的智能助手。为此,业界前仆后继,始终在探索使用各种技术逼近这种“能听懂、会执行”的理想形态:从贝尔实验室在 1950 年代实现对 0–9 数字的识别,到 Siri、Alexa 等面向指令式需求的智能语音助手,再到国内小爱、小度、天猫精灵等覆盖生态设备控制的产品,都是这一路探索的里程碑。 ...