> **来源:[研报客](https://pc.yanbaoke.cn)** # 语音大模型总结 ## 1. 背景介绍 ### 1.1 世界语种分布 - 当前世界上现存有7168种语言,分为142个语系。 - 语种按使用人数分布,如:Indo-European(3.3亿)、Sino-Tibetan(1.4亿)、Afro-Asiatic(6亿)等。 ### 1.2 中国方言 - 汉语方言通常分为十大方言:官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。 - 各方言区划及人口数如下: - 东北官话:198个区划,9802万人 - 北京官话:52个区划,2676万人 - 冀鲁官话:162个区划,8942.5万人 - 胶辽官话:44个区划,3495万人 - 中原官话:397个区划,18648万人 - 兰银官话:70个区划,1690万人 - 江淮官话:108个区划,8605万人 - 西南官话:546个区划,26000万人 - 晋语:194个区划,6305万人 - 吴语:160个区划,7379万人 - 闽语:154个区划,7500万人 - 客家话:110个区划,4220万人 - 粤语:141个区划,5882万人 - 湘语:64个区划,3637万人 - 赣语:102个区划,4800万人 - 徽语:19个区划,330万人 - 平话和土话:60个区划,778万人 - 总计:2581个区划,120689.5万人 ### 1.3 多语种识别 - 多语种语音识别模型可以处理多种语言的音频输入,如普通话、英语、日语等。 - 使用基于Unicode编码的BBPE(Byte-level Byte-pair Encoding)作为统一的建模单元,支持跨语言识别。 - 多语种建模方法包括使用多任务训练和prompt方式包含语种标签。 ### 1.4 GPT-4o语音模式 - GPT-4o是OpenAI于2024年5月推出的多模态端到端实时交互大模型。 - 支持文本、视觉和音频处理,音频响应时间最快为232毫秒,接近人类水平。 ### 1.5 豆包语音交互 - 豆包语音交互支持动态判停技术,用于识别用户是否讲完并中断语音助手的回复。 - 通过动态判停优化语音交互的流畅性和准确性。 ### 1.6 级联式对话模型 - 级联式模型包括语音识别(ASR)、大语言模型(LLM)和语音合成(TTS)三个核心模块。 - 存在以下问题: - 信息丢失:语音信号包含副语言信息,文本无法保留。 - 错误累积:ASR到LLM阶段容易出现错误累积。 - 高延迟:多模块交互导致系统响应延迟较高。 ### 1.7 端到端对话模型 - 端到端对话模型通过语音编码器将语音离散化,语言模型直接处理语音数据,实现多模态实时输入输出。 - 系统框架包括语音输入、语音编码器、语言模型、语音解码器和语音输出。 ### 1.8 全双工语音交互 - 全双工通信允许双方同时发送和接收数据,适用于实时语音交互。 - GPT Realtime采用WebRTC协议支持全双工通信。 - 关键挑战包括打断识别和判停判断,需准确识别用户意图。 ## 2. 语音识别大模型 ### 2.1 语音识别过程 - 语音识别任务是找到最可能的词序列 $ \widehat{W} $,根据贝叶斯准则: $$ \widehat {W} = \operatorname{argmax} P (O | W) P (W) $$ - 包括声学模型和语言模型,声学模型决定第一项,语言模型决定第二项。 ### 2.2 语音识别发展史 - 语音识别技术经历了多个阶段: - 第一阶段:模板匹配(如Audry-识别) - 第二阶段:统计模型(如DTW、VQ) - 第三阶段:深度学习(如DNN) - 第四阶段:大模型(如Transformer、Conformer) ### 2.3 Transformer - Transformer模型通过自注意力机制处理语音识别任务。 - 语音编码器将语音特征进行处理,语言模型进行解码。 ### 2.4 Conformer - Conformer结合了卷积和自注意力机制,提升语音识别性能。 - 语音编码器使用Conformer,解码器使用Transformer。 ### 2.5 大语言模型(LLM) - 大语言模型用于语音识别的解码阶段,实现从语音到文本的转换。 - 语音编码器将语音转化为离散的token,再通过LLM进行处理。 ### 2.6 开源模型 #### 2.6.1 Whisper - Whisper是端到端Transformer模型,使用68万小时弱标签数据训练。 - 模型尺寸包括Tiny、Base、Small、Medium和Large。 - 支持多任务训练,通过prompt方式包含语种标签。 #### 2.6.2 FireRedASR - 小红书发布的FireRedASR支持中文和英文,使用Conformer作为语音编码器。 - 语音编码器采用LoRA微调,LLM基于Qwen2-7B-Instruct(冻结)。 - 模型参数量较大,支持流式输入和语种识别。 #### 2.6.3 Qwen3-ASR - 阿里巴巴发布的Qwen3-ASR支持30个语种和22个中国方言。 - 采用AuT框架,预训练语音编码器后接入Qwen3 LM。 - 使用约4000万小时伪标签数据,支持流式输入和强化学习优化。 ## 3. 端到端对话模型 - 端到端对话模型通过语音编码器将语音转化为token,再由语言模型进行处理。 - 语音解码器将语言模型输出的token转化为语音输出。 - 相比级联式模型,端到端模型减少了模块间的错误累积和延迟。 ## 4. 全双工语音交互 - 全双工通信允许双方同时发送和接收语音数据,提升交互体验。 - GPT Realtime采用WebRTC协议实现全双工语音交互。 - 动态判停技术用于识别用户是否完成发言,提升交互的自然性。 ## 5. 落地应用 - 多语种语音识别模型广泛应用于智能助手、语音翻译、语音搜索等场景。 - 全双工语音交互技术可用于实时会议、语音助手等需要双向通信的应用。 - 端到端模型在语音交互、语音合成、语音识别等领域有广泛应用前景。