> **来源:[研报客](https://pc.yanbaoke.cn)** # 语音识别全栈国产化技术实践白皮书总结 ## 核心内容 本白皮书介绍了基于**紫光计算机集群**和**摩尔线程全功能 GPU**构建的语音识别全栈国产化解决方案。该方案提供了两种核心服务:**流式语音识别**和**离线语音转写**,分别适用于实时、低延迟场景和长音频、批量转写场景。系统具备完整的音频预处理与后处理能力,包括语音活动检测(VAD)、自动标点恢复、文本归一化(ITN)等,并支持热词增强与垂直领域语言模型(LM)定制,满足不同业务场景的需求。 ## 主要观点 - **全栈国产化**:系统基于国产硬件(紫光计算机集群 + 摩尔线程 GPU)构建,强调技术自主可控。 - **双模式识别**:支持流式识别(实时、低延迟)和离线识别(长音频、批量转写),适用于多种业务需求。 - **高准确率与稳定性**:通过国家工业信息安全发展研究中心(国检)检测,确保在噪声环境下仍能保持高识别准确率(>90%)。 - **多场景适配**:支持中英文混合识别、数字与字母混读,适用于电话客服、会议记录、媒体字幕生成等复杂场景。 - **行业定制能力**:支持金融、电力、医疗等垂直领域语言模型的微调与适配,提升专业词识别能力。 - **高性能推理架构**:采用摩尔线程 MUSA 推理架构,结合算子级工程优化,实现低延迟与高吞吐。 ## 关键信息 ### 技术特点 - **端到端统一架构**:支持流式与非流式推理,确保延迟可控的同时保持高准确率。 - **自注意力机制建模**:提升识别内容的准确性。 - **大规模数据驱动**:使用数十万小时通用语料与数万小时电话客服垂类语料训练模型。 - **课程表学习与多任务训练**:从易到难逐步训练,提升模型在噪音环境和长音频中的表现。 - **强化学习技术**:增强对长音频、含噪音频的解码能力。 - **全链路工程化后处理**:内置 VAD、自动标点恢复、ITN、时间戳输出等功能,支持字幕生成、质检索引等下游任务。 ### 接口协议 #### 流式语音识别接口 - **交互流程**:客户端通过 WebSocket 连接服务端,发送音频数据并接收实时识别结果。 - **初始化消息**:包含识别模式(`mooer-change`)、采样率、格式(PCM)、是否开启 ITN 和标点。 - **音频发送**:按 0.1 秒为单位发送 PCM 数据。 - **结束消息**:发送 `{ "do_recognize": false }` 结束音频传输。 - **接收结果**: - `mooer-change`:实时中间结果。 - `mooer-end`:最终识别结果。 - **支持字段**:`finished_recognize`、`utt_time_stamp`、`word_time_stamps` 等。 #### 离线语音转写接口 - **交互流程**:客户端通过 WebSocket 连接服务端,发送完整音频文件并接收最终识别结果。 - **初始化消息**:包含识别模式(`offline`)、采样率、格式(PCM)、是否开启 ITN 和标点。 - **音频发送**:一次性发送 PCM 数据。 - **结束消息**:发送 `{ "do_recognize": false }` 结束音频传输。 - **接收结果**:返回完整的识别文本与时间戳信息。 ### 系统部署 - **部署架构**:基于 Kubernetes(K8S)服务部署,支持高并发与弹性扩展。 - **硬件配置要求**: - GPU:摩尔线程 MTT S4000 - CPU:Intel(R) Xeon(R) Gold 6430 - 内存:1 TB - 硬盘:15 TB ### 公司介绍 - **摩尔线程**:以全功能 GPU 为核心,提供 AI 加速计算基础设施,致力于推动人工智能与数字孪生的发展。 - **紫光计算机**:提供国产全栈式 AI 产业解决方案,覆盖算力基础、行业应用与生产制造,助力数字化转型。 ## 应用场景 1. **电话客服质检与话单转写**:支持大批量录音离线转写与准实时通话监控。 2. **会议与访谈记录**:长音频转写、自动切句与时间索引,便于内容检索与编辑。 3. **客服机器人/IVR 打点与实时转写**:低延迟输出,结合热词与垂类 LM 提升识别率。 4. **媒体转写与字幕生成**:自动标点与 ITN 规范化,确保字幕可读性与同步性。 5. **行业定制场景**:支持金融、电力、医疗等领域的专业词识别,提升业务适配性。 ## 技术指标 - **流式识别 RTF**: - 1 并发:0.08 - 10 并发:0.23 - **离线识别 RTF**: - 1 并发:0.02 - 10 并发:0.06 - **识别准确率**:在底噪、高噪环境下均大于 90%,尤其在客服通话与日常对话中表现优异。 ## 总结 本白皮书提出了一套基于国产硬件的语音识别解决方案,覆盖从音频处理到文本输出的全链路流程。系统支持流式与离线识别模式,具备高准确率、低延迟、高吞吐、多语言识别与行业定制能力,适用于多种业务场景,如电话客服、会议记录、媒体字幕生成等。同时,系统通过国家工业信息安全发展研究中心检测,确保在复杂噪声环境下的稳定性和准确性,为企业的数智化转型提供可靠支持。