> **来源:[研报客](https://pc.yanbaoke.cn)** # 语音识别全栈国产化技术实践白皮书总结 ## 核心内容概述 《语音识别全栈国产化技术实践白皮书》介绍了一套基于国产硬件平台的语音识别解决方案,涵盖流式语音识别与离线语音转写两大核心服务,适用于多种行业场景,如电话客服质检、会议记录、媒体字幕生成等。系统支持音频预处理与后处理功能,包括语音活动检测(VAD)、自动标点恢复、文本归一化(ITN)等,同时具备热词增强与垂直领域语言模型定制能力,以提升识别准确率与适应性。 ## 主要观点 - **全栈国产化**:系统基于紫光计算机集群和摩尔线程全功能 GPU 构建,实现了训练与推理的国产化部署。 - **多场景适配**:支持实时低延迟的流式识别与长音频批量转写的离线识别,满足不同业务需求。 - **高识别准确率**:通过国家工业信息安全发展研究中心(国检)检测,准确率在多种噪声环境下均超过 90%,具备良好的鲁棒性。 - **高识别速度**:利用摩尔线程 MUSA 推理架构优化,实现低延时与高吞吐量,如非流式识别在 10 并发时 RTF 为 0.06。 - **技术先进性**:采用端到端对齐与预测融合架构、自注意力机制、课程表学习与多任务训练、强化学习等技术手段,提升模型性能。 - **语言模型定制**:支持垂类语言模型微调,增强对专业术语、企业名称等的识别能力。 - **接口灵活性**:提供 Websocket 接口,支持流式与非流式模式,便于集成与部署。 ## 关键信息 ### 1. **支持的音频格式与参数** - 采样率:8k、16k - 音频格式:PCM 单声道 - 支持语言:中文普通话、中英混合、英文 ### 2. **主要功能** - **语音活动检测(VAD)**:自动识别语音段落,降低无效计算和错误触发概率。 - **端到端语音识别(ASR)**:支持流式和非流式识别,满足实时与长音频转写需求。 - **自动标点恢复**:提升文本可读性。 - **文本归一化(ITN)**:规范化数字、金额、单位等表达方式。 - **时间戳输出**:支持字级与句级时间戳,便于字幕生成、检索与对齐。 ### 3. **增强能力** - **热词自定义**:支持业务专有名词的快速增强识别。 - **垂类语言模型定制**:可针对客服、金融、电力等场景进行深度微调,提高专业词识别率。 - **中英混识别**:通过自研语音合成大模型生成中英混音频数据,提升识别能力。 ### 4. **接口协议** #### (1) 流式语音识别接口 - **交互流程**:客户端通过 Websocket 连接服务端,发送初始化消息后按 0.1s 包大小发送 PCM 数据,接收中间结果与最终结果。 - **初始化参数**: - `mooer-type`: `mooer-change`(流式识别) - `sample_rate`: 8000 或 16000 - `wav_format`: `pcm` - `do_recognize`: `true`(开始发送音频) - `itn` 和 `punc`:可选参数,支持文本归一化与标点恢复。 - **结束发送**:发送 `do_recognize: false` 结束音频传输。 - **接收结果**: - 中间结果(`mooer-type`: `mooer-change`):实时更新的文本片段。 - 最终结果(`mooer-type`: `mooer-end`):完整句子识别结果,不再变化。 - **时间戳字段**: - `utt_time_stamp`:包含 `utt_start`、`utt_end`、`utt_text`、`utt_word_time_stamps`,用于时间对齐与检索。 #### (2) 离线语音转写接口 - **交互流程**:客户端发送初始化消息后,发送 PCM 音频数据,最后发送结束消息。 - **初始化参数**: - `mooer-type`: `offline` - `sample_rate`: 8000 或 16000 - `wav_format`: `pcm` - `do_recognize`: `true`(开始发送音频) - `itn` 和 `punc`:可选参数,支持文本归一化与标点恢复。 - **结束发送**:发送 `do_recognize: false` 结束音频传输。 - **接收结果**:返回完整识别结果与时间戳信息。 ### 5. **系统部署** #### (1) 部署架构 - 采用 K8S 服务部署,支持语音输入与处理模块的分布式架构。 - 系统支持灵活扩展,适用于多节点部署与高并发处理。 #### (2) 硬件配置要求 | 硬件 | 配置 | |------|------| | GPU | 摩尔线程 MTT S4000 | | CPU | Intel(R) Xeon(R) Gold 6430 | | 内存 | 1 TB | | 硬盘 | 15 TB | ### 6. **公司介绍** - **摩尔线程**:专注于全功能 GPU 的研发与应用,提供 AI 加速计算基础设施。 - **紫光计算机**:依托自主创新技术,提供国产全栈式 AI 解决方案,支持行业数字化转型,涵盖 PC 终端、智算一体机、智算中心部署与运维等业务板块。 ## 总结 本白皮书详细介绍了基于国产 GPU 平台的语音识别全栈解决方案,涵盖流式与离线识别,适用于多种行业场景。系统具备高识别准确率、低延迟、高吞吐量等优势,并支持自定义热词与垂类语言模型微调,提升专业领域识别能力。接口设计灵活,便于集成与部署,同时通过 K8S 架构实现高效扩展。系统已通过国家权威检测,具备良好的稳定性与适用性,是国产语音识别技术的重要实践案例。