国产_GPU_技术选型与金融场景实践分享_18页_2mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 国产 GPU 选型与实践分享总结 ## 核心内容概述 本分享由TCE智算首席架构师罗翀主讲，围绕国产GPU的架构路线、性能特点、应用场景、生态兼容性等方面展开，旨在为用户在选择国产GPU时提供全面的技术参考和实践建议。 --- ## 主要观点 ### 1. 芯片架构路线 国产GPU主要分为两种架构路线： - **GPGPU通用架构**：基于图形渲染架构进行扩展，指令集兼容性好，适合混合负载，代表厂商为海光信息、沐曦。 - **DSA专用架构**：针对深度学习张量计算优化，性能高但通用性差，代表厂商为华为昇腾、寒武纪。 ### 2. 显存类型和容量 - 主流旗舰配置区间为 **64GB - 144GB**。 - **HBM高带宽显存** 是主流选择，如海光DCU 144GB。 - 显存容量直接影响模型推理和训练的性能表现。 ### 3. 精度类型和算力 - **训练**：常用FP16、BF16、FP8，对算力要求高（Compute-Bound）。 - **推理**：常用INT8、INT4，对显存带宽要求高（Memory-Bound）。 - 算力指标以 **TFLOPS** 衡量，显存带宽以 **GB/s** 衡量。 ### 4. 训练与推理阶段 - **训练**：包含前向传播、反向传播和参数更新三个阶段，计算量大，算力是主要瓶颈。 - **推理**：分为 **Prefill**（预填充）和 **Decode**（解码）两个阶段。 - **Prefill**：计算密集型，需一次性生成所有输入Token的KV Cache。 - **Decode**：访存密集型，逐个生成Token，受限于显存带宽，算力利用率低。 ### 5. 关键性能瓶颈 - **Decode阶段** 是推理性能的主要瓶颈，其限制因素为显存带宽而非纯算力。 - **训练** 更关注算力（TFLOPS），而 **推理** 更关注显存带宽（GB/s）。 ### 6. 国产GPU性能评测 - 覆盖主流模型和业务场景，包括LLM训练、传统推理、自动驾驶训练、开源DiT推理、DeepSeek推理、混元DiT推理等。 - 评测数据横向拉通，帮助用户全面了解不同厂商GPU的性能表现。 ### 7. GPU生态和厂商技术支持评估 | 指标 | 海光BW1000 | 昆仑芯P800 | 沐曦C550 | 昇腾910C | |------|------------|------------|----------|----------| | CUDA API兼容性 | 兼容，业务代码无需修改 | 不兼容，需定制版本Torch | 兼容，业务代码无需修改 | 不兼容，需定制版本Torch | | 虚拟化支持 | 不支持 | 不支持 | 支持 | 不支持 | --- ## 关键信息 ### 1. 国产GPU应用场景 - **云桌面、数字孪生、3D建模、游戏娱乐**：适用于图形渲染场景，支持DX12、Vulkan、OpenGL等API。 - **HPC、气象预测、物理仿真、生信分析**：适用于高性能计算，如海光DCU Z100。 - **LLM训练与推理**：支持多种模型如Qwen3-8B、Qwen2.5-72B、DeepSeek-V3.2-Exp等。 - **搜广推、自动驾驶、视频生成**：需关注算力、显存带宽等指标。 ### 2. 国产GPU性能指标 - **训练**：关注吞吐量（Tokens/sec/GPU）、总训练时长、模型收敛度（Loss）。 - **推理**：关注延迟（TTFT、TPOT、端到端延迟），其中Decode阶段是主要瓶颈。 ### 3. TCE智算解决方案 - 与公有云同源同构，支持GPU异构计算、高性能网络、高性能存储。 - 提供云原生编排调度和训推加速套件，集成TI训推平台、ADP智能体平台等AI平台能力。 - 支持 **MaaS服务**，满足企业级AI需求。 ### 4. 未来展望 - 2026年国产GPU将在 **先进制程（7nm+）** 和 **HBM3e显存** 上持续突破。 - 技术演进目标为提升 **显存带宽至1TB/s+**，进一步优化性能和效率。 --- ## 总结 国产GPU正逐步向高性能、高兼容性、强自主可控方向发展，覆盖从通用计算到AI专用计算的多种场景。在实际应用中，需根据具体业务需求选择合适的GPU类型，关注算力、显存带宽、API兼容性、虚拟化支持等关键指标。TCE智算解决方案通过整合软硬件生态，提供全面的AI平台支持，助力企业构建高效的AI解决方案。未来，国产GPU将在先进制程和HBM3e技术上实现突破，推动AI计算能力的进一步提升。