> **来源:[研报客](https://pc.yanbaoke.cn)** # 国产 GPU 选型与实践分享总结 ## 核心内容概述 本分享由TCE智算首席架构师罗翀主讲,围绕国产GPU的架构路线、性能特点、应用场景、生态兼容性等方面展开,旨在为用户在选择国产GPU时提供全面的技术参考和实践建议。 --- ## 主要观点 ### 1. 芯片架构路线 国产GPU主要分为两种架构路线: - **GPGPU通用架构**:基于图形渲染架构进行扩展,指令集兼容性好,适合混合负载,代表厂商为海光信息、沐曦。 - **DSA专用架构**:针对深度学习张量计算优化,性能高但通用性差,代表厂商为华为昇腾、寒武纪。 ### 2. 显存类型和容量 - 主流旗舰配置区间为 **64GB - 144GB**。 - **HBM高带宽显存** 是主流选择,如海光DCU 144GB。 - 显存容量直接影响模型推理和训练的性能表现。 ### 3. 精度类型和算力 - **训练**:常用FP16、BF16、FP8,对算力要求高(Compute-Bound)。 - **推理**:常用INT8、INT4,对显存带宽要求高(Memory-Bound)。 - 算力指标以 **TFLOPS** 衡量,显存带宽以 **GB/s** 衡量。 ### 4. 训练与推理阶段 - **训练**:包含前向传播、反向传播和参数更新三个阶段,计算量大,算力是主要瓶颈。 - **推理**:分为 **Prefill**(预填充)和 **Decode**(解码)两个阶段。 - **Prefill**:计算密集型,需一次性生成所有输入Token的KV Cache。 - **Decode**:访存密集型,逐个生成Token,受限于显存带宽,算力利用率低。 ### 5. 关键性能瓶颈 - **Decode阶段** 是推理性能的主要瓶颈,其限制因素为显存带宽而非纯算力。 - **训练** 更关注算力(TFLOPS),而 **推理** 更关注显存带宽(GB/s)。 ### 6. 国产GPU性能评测 - 覆盖主流模型和业务场景,包括LLM训练、传统推理、自动驾驶训练、开源DiT推理、DeepSeek推理、混元DiT推理等。 - 评测数据横向拉通,帮助用户全面了解不同厂商GPU的性能表现。 ### 7. GPU生态和厂商技术支持评估 | 指标 | 海光BW1000 | 昆仑芯P800 | 沐曦C550 | 昇腾910C | |------|------------|------------|----------|----------| | CUDA API兼容性 | 兼容,业务代码无需修改 | 不兼容,需定制版本Torch | 兼容,业务代码无需修改 | 不兼容,需定制版本Torch | | 虚拟化支持 | 不支持 | 不支持 | 支持 | 不支持 | --- ## 关键信息 ### 1. 国产GPU应用场景 - **云桌面、数字孪生、3D建模、游戏娱乐**:适用于图形渲染场景,支持DX12、Vulkan、OpenGL等API。 - **HPC、气象预测、物理仿真、生信分析**:适用于高性能计算,如海光DCU Z100。 - **LLM训练与推理**:支持多种模型如Qwen3-8B、Qwen2.5-72B、DeepSeek-V3.2-Exp等。 - **搜广推、自动驾驶、视频生成**:需关注算力、显存带宽等指标。 ### 2. 国产GPU性能指标 - **训练**:关注吞吐量(Tokens/sec/GPU)、总训练时长、模型收敛度(Loss)。 - **推理**:关注延迟(TTFT、TPOT、端到端延迟),其中Decode阶段是主要瓶颈。 ### 3. TCE智算解决方案 - 与公有云同源同构,支持GPU异构计算、高性能网络、高性能存储。 - 提供云原生编排调度和训推加速套件,集成TI训推平台、ADP智能体平台等AI平台能力。 - 支持 **MaaS服务**,满足企业级AI需求。 ### 4. 未来展望 - 2026年国产GPU将在 **先进制程(7nm+)** 和 **HBM3e显存** 上持续突破。 - 技术演进目标为提升 **显存带宽至1TB/s+**,进一步优化性能和效率。 --- ## 总结 国产GPU正逐步向高性能、高兼容性、强自主可控方向发展,覆盖从通用计算到AI专用计算的多种场景。在实际应用中,需根据具体业务需求选择合适的GPU类型,关注算力、显存带宽、API兼容性、虚拟化支持等关键指标。TCE智算解决方案通过整合软硬件生态,提供全面的AI平台支持,助力企业构建高效的AI解决方案。未来,国产GPU将在先进制程和HBM3e技术上实现突破,推动AI计算能力的进一步提升。