语音大模型从语音识别到全双工语音交互_72页_9mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 语音大模型总结 ## 1. 背景介绍 ### 1.1 世界语种分布 - 当前世界上现存有7168种语言，分为142个语系。 - 语种按使用人数分布，如：Indo-European（3.3亿）、Sino-Tibetan（1.4亿）、Afro-Asiatic（6亿）等。 ### 1.2 中国方言 - 汉语方言通常分为十大方言：官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。 - 各方言区划及人口数如下： - 东北官话：198个区划，9802万人 - 北京官话：52个区划，2676万人 - 冀鲁官话：162个区划，8942.5万人 - 胶辽官话：44个区划，3495万人 - 中原官话：397个区划，18648万人 - 兰银官话：70个区划，1690万人 - 江淮官话：108个区划，8605万人 - 西南官话：546个区划，26000万人 - 晋语：194个区划，6305万人 - 吴语：160个区划，7379万人 - 闽语：154个区划，7500万人 - 客家话：110个区划，4220万人 - 粤语：141个区划，5882万人 - 湘语：64个区划，3637万人 - 赣语：102个区划，4800万人 - 徽语：19个区划，330万人 - 平话和土话：60个区划，778万人 - 总计：2581个区划，120689.5万人 ### 1.3 多语种识别 - 多语种语音识别模型可以处理多种语言的音频输入，如普通话、英语、日语等。 - 使用基于Unicode编码的BBPE（Byte-level Byte-pair Encoding）作为统一的建模单元，支持跨语言识别。 - 多语种建模方法包括使用多任务训练和prompt方式包含语种标签。 ### 1.4 GPT-4o语音模式 - GPT-4o是OpenAI于2024年5月推出的多模态端到端实时交互大模型。 - 支持文本、视觉和音频处理，音频响应时间最快为232毫秒，接近人类水平。 ### 1.5 豆包语音交互 - 豆包语音交互支持动态判停技术，用于识别用户是否讲完并中断语音助手的回复。 - 通过动态判停优化语音交互的流畅性和准确性。 ### 1.6 级联式对话模型 - 级联式模型包括语音识别（ASR）、大语言模型（LLM）和语音合成（TTS）三个核心模块。 - 存在以下问题： - 信息丢失：语音信号包含副语言信息，文本无法保留。 - 错误累积：ASR到LLM阶段容易出现错误累积。 - 高延迟：多模块交互导致系统响应延迟较高。 ### 1.7 端到端对话模型 - 端到端对话模型通过语音编码器将语音离散化，语言模型直接处理语音数据，实现多模态实时输入输出。 - 系统框架包括语音输入、语音编码器、语言模型、语音解码器和语音输出。 ### 1.8 全双工语音交互 - 全双工通信允许双方同时发送和接收数据，适用于实时语音交互。 - GPT Realtime采用WebRTC协议支持全双工通信。 - 关键挑战包括打断识别和判停判断，需准确识别用户意图。 ## 2. 语音识别大模型 ### 2.1 语音识别过程 - 语音识别任务是找到最可能的词序列 $ \widehat{W} $，根据贝叶斯准则： $$ \widehat {W} = \operatorname{argmax} P (O | W) P (W) $$ - 包括声学模型和语言模型，声学模型决定第一项，语言模型决定第二项。 ### 2.2 语音识别发展史 - 语音识别技术经历了多个阶段： - 第一阶段：模板匹配（如Audry-识别） - 第二阶段：统计模型（如DTW、VQ） - 第三阶段：深度学习（如DNN） - 第四阶段：大模型（如Transformer、Conformer） ### 2.3 Transformer - Transformer模型通过自注意力机制处理语音识别任务。 - 语音编码器将语音特征进行处理，语言模型进行解码。 ### 2.4 Conformer - Conformer结合了卷积和自注意力机制，提升语音识别性能。 - 语音编码器使用Conformer，解码器使用Transformer。 ### 2.5 大语言模型（LLM） - 大语言模型用于语音识别的解码阶段，实现从语音到文本的转换。 - 语音编码器将语音转化为离散的token，再通过LLM进行处理。 ### 2.6 开源模型 #### 2.6.1 Whisper - Whisper是端到端Transformer模型，使用68万小时弱标签数据训练。 - 模型尺寸包括Tiny、Base、Small、Medium和Large。 - 支持多任务训练，通过prompt方式包含语种标签。 #### 2.6.2 FireRedASR - 小红书发布的FireRedASR支持中文和英文，使用Conformer作为语音编码器。 - 语音编码器采用LoRA微调，LLM基于Qwen2-7B-Instruct（冻结）。 - 模型参数量较大，支持流式输入和语种识别。 #### 2.6.3 Qwen3-ASR - 阿里巴巴发布的Qwen3-ASR支持30个语种和22个中国方言。 - 采用AuT框架，预训练语音编码器后接入Qwen3 LM。 - 使用约4000万小时伪标签数据，支持流式输入和强化学习优化。 ## 3. 端到端对话模型 - 端到端对话模型通过语音编码器将语音转化为token，再由语言模型进行处理。 - 语音解码器将语言模型输出的token转化为语音输出。 - 相比级联式模型，端到端模型减少了模块间的错误累积和延迟。 ## 4. 全双工语音交互 - 全双工通信允许双方同时发送和接收语音数据，提升交互体验。 - GPT Realtime采用WebRTC协议实现全双工语音交互。 - 动态判停技术用于识别用户是否完成发言，提升交互的自然性。 ## 5. 落地应用 - 多语种语音识别模型广泛应用于智能助手、语音翻译、语音搜索等场景。 - 全双工语音交互技术可用于实时会议、语音助手等需要双向通信的应用。 - 端到端模型在语音交互、语音合成、语音识别等领域有广泛应用前景。