LLM | 我的博客

在车载语音助手里，端到端 Omni 模型有一个很有吸引力的方向：用户说话之后，不再先走独立 ASR，再把文本送给大模型，而是直接让多模态模型从音频输入生成工具调用或自然语言回复。这样可以减少级联系统中的信息损失，也能让模型利用语音里的停顿、语气和上下文。 ...