中泰电子AI系列之国产算力_2026关注1-N放量_72页_5mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 【中泰电子】AI系列之国产算力：2026关注1-N放量 分析师： 王芳 S0740521120002，杨旭 S0740521120001, 李雪峰 S0740522080004 中泰证券研究所 专业|领先|深度|诚信 # 目录 # 一、算力芯片：GPU vs ASIC 二、国产趋势一：算力自主可控是确定方向 三、国产趋势二：大厂自研芯片是必经之路 四、国产趋势三：芯片逐渐由单卡走向系统集成 五、投资建议&风险提示 # 1. GPU与ASIC是算力两大支柱 ■GPU芯片与ASIC芯片是算力解决方案的两大支柱：AI芯片在人工智能的算法和应用上做针对性设计，可高效处理人工智能应用的计算任务（其他非计算任务仍由CPU负责）。当前主流的AI芯片分为三类——GPU、FPGA、ASIC，GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片，其中GPU并行计算能力强，在AI训练和推理场景应用最多，ASIC属于为AI特定场景定制的芯片，具有较佳的性能和能效比，和GPU构成目前AI芯片的两大核心。 > GPU适用于AI计算，相比于传统GPU主要执行图形之外的通用计算任务，利用GPU的并行计算优势，加速科学计算、大数据分析、深度学习等领域，尤其在大规模并行计算时，比传统CPU更为高效。 > ASIC芯片适用于推理：ASIC芯片设计目的是高效处理特定算法，通过针对特定任务进行硬件优化，其能够最大限度利用硬件资源实现高性能计算，同时保持极低功耗，因此ASIC芯片在AI推理等任务中表现出色。 图表：CPU、GPU、FPGA和ASIC简要介绍 CPU GPU FPGA ASIC 名称 中央处理器 图形处理器 现场可编程门阵列 专用集成电路 定制化程度 通用 半通用 半定制化 全定制化 特点 通用性最强，擅长逻辑控制、串行的运算，但并行算力弱，较少用于AI 提供了多核并行计算的基础结构，可支撑大量数据的并行计算，计算能力强，但功耗高 可编程性、灵活性高，但开发复杂度高且运算能力有限 定制化设计、能效比高，但由于缺乏通用性、开发成本高且周期长，适合大规模、固定场景的应用 代表公司 Intel 英伟达、AMD Altera（Intel收购）、Xilinx（AMD收购） 博通、寒武纪 # 1.1 GPU：专为AI计算优化设计 GPU专为通用并行计算任务设计，具有高度并行性、高内存带宽与多级缓存的特征：1）高度并行性：拥有大量并行计算单元，多条流水线可在单一控制部件的集中控制下运行；2）高内存带宽：通常集成高速的GDDR或HBM显存颗粒，提供高访存带宽以处理数据密集型运算；3）多级缓存：包括全局内存、共享内存、寄存器等，大幅提高数据访问效率、降低延迟。 ■ GPU广泛应用于AI计算、深度学习训练等领域：GPU主要进行非图形相关程序的运算，如科学模拟、数据分析、机器学习、高性能计算，广泛应用于科学计算、深度学习训练等场景。 相较于NPU、TPU等AI芯片，GPGPU通用性更强、生态壁垒和开发难度更低：GPGPU采用SIMT架构可实现“开箱即用”，NPU/TPU仍沿用传统SIMD架构，需手动编排流水线，时延隐藏效率远不及SIMT，导致编写高性能内核难度大、效率低，既难以实现易用性，生态完善程度也落后于GPGPU。 图表：GPGPU、NPU和TPU的对比 GPU（CUDA Core） NPU（MAC阵列） TPU（脉动阵列） 并行机制 SIMT（单指令多线程，即单一指令流驱动多线程并行执行，每个线程处理独立数据集），通过通用调度机制与友好的编程接口，实现“开箱即用”的高性能。 沿用传统 SIMD（单指令多数据）架构，仅能处理不同指令对相同地址的访问阻塞，缺乏SIMT架构中针对线程的延迟隐藏机制，开发者优化时需编写“高性能内核”，加剧了使用门槛。 典型配置 20000+核心 1024x1024 MAC 128x128运算单元 通用计算能力 完备 受限 几乎无 生态成熟度 20年积累 5年发展 仅限谷歌云 生态壁垒/移植成本 壁垒低（标准API）：国产GPU如果直接兼容CUDA生态，算子与推理引擎框架无需重写，仅需重新编译即可复用，大幅降低了迁移成本 壁垒高（需重写算子）：开发者往往需要持续高强度加班以适配算子、优化性能、搭建深度学习引擎框架 极高（封闭生态） 开发难度 低：可自主开发算子、进行性能优化，且门槛相对较低 除少数大厂外，多数开发者只能依赖厂商提供的SDK与解决方案，难以自主开展深度优化 # 1.1.1 英伟达是GPU领先企业，其架构持续迭代升级 ■英伟达作为GPU的代表企业，其架构经历了Volta（12nm）→Ampere（7nm）→Hopper（4nm）→Blackwell（4nm）迭代，新一代Rubin（3nm）架构将于26年下半年推出，随AI持续迭代的过程也伴随形态、价值量快速提升。 图表：英伟达GPU产品架构及参数迭代梳理 架构 类型 发布时间 形态 制程 (nm) FP4 FP6 算力（稠密/稀疏*, TFLOPS) 显存 互联带宽 (GB/s) TDP(最大 功耗,W) ASP (美元) 单服务器 GPU数量 FP8 FP8 FP16/BF16 TF32 容量 (GB) HBM配置 带宽 (GB/s) Volta V100 2017年 SXM 12 / 125 / 16/32 HBM2 900 NVLink2.0 300 300 1w / Ampere A100 2020年 SXM 7 624/1248* 312/624* 156/312* 80 HBM2e 2039 NVLink3.0 600 400 1.5w 8 Hopper H100 2022年 SXM 4 3958* 3958* 1979* 989* 80 HBM3 3350 NVLink4.0 900 700 2.4w 8 H200 2023年 SXM 4 3958* 3958* 1979* 989* 141 HBM3e 4800 NVLink4.0 900 700 2.4w 8 B100 SXM(双 die) 4NP 7P/14P* 3.5P/7P* 3.5P/7P* 3.5P/7P* 1800/3500* 900/1800* 192 HBM3e 8000 NVLink5.0 1800 700 3w 8 Blackwel I+ Blackwel I Ultra B200 2024年 SXM(双 die) 4NP 9P/18P* 4.5P/9P* 4.5P/9P* 4.5P/9P* 2250/4500* 1120/2250* 192 HBM3e 8000 NVLink5.0 1800 1000 / 8 GB200 2xB200(4 die) 4NP 20P/40P* 10P/20P* 10P/20P* 10P/20P* 5P/10P* 2500/5000* 384 HBM3e 16000 NVLink5.0 1800*2 最高达2700 / 36/72 B300 SXM(双 die) 4NP 15P/17.5P* / / 4.5P/9P* 2.25/4.5P* 1120/2250* 288 HBM3e 8000 NVLink5.0 1800 1400 / 36/72 GB300 2xB300 4NP 30P/38.9P* / / 10P/20P* 5P/10P* 2500/5000* 576 HBM3e 16000 NVLink5.0 1800*2 1400 / 36/72 Rubin 2026年 双die 3N 50P / 288 HBM4 22000 3600 / / 72 Rubin Ultra 2027年 4 die 3N 100P / 1000 HBM4e / ■ Tensor Core（张量核心）专为深度学习和Transformer加速设计：矩阵乘加（MMA，D=A*B+C）是深度学习训练和推理中最核心的操作，而Tensor Core作为专用张量加速单元，能以矩阵块为单位在较短时间内完成大量矩阵乘加运算，这种并行计算方式显著加快神经网络模型的训练和推断过程；同时采用混合精度计算（如用半精度FP16作为输入和输出，利用全精度FP32存储中间结果，确保计算精度的同时最大限度地提高计算效率）。 图表：CUDA Core和Tensor Core的对比 CUDA Core (GPU Core) Tensor Core 定位 通用并行计算单元，适用于图形渲染、传统算法等 专用张量加速单元，专为深度学习中的矩阵运算优化 首次引入架构 2006年（G80） 2017年（V100） 基本操作 标量/向量级浮点或整数运算，需多条指令完成乘加 单指令完成矩阵乘加（MMA） 计算粒度 每个core处理一个线程（SIMT架构） 每次操作处理小矩阵块（如16x16x16），以tile（瓦片）为单位 精度策略 单一精度计算 混合精度：低精度计算（提速）+高精度累加（保精度） 灵活性 高：支持分支、循环、复杂控制流 低：仅针对矩阵乘加，但在AI场景下速度快10-20倍 来源：小珂Tech，智能计算芯世界，中泰证券研究所 # 1.1.1 GPU架构演进的核心：Tensor Core ■英伟达GPU产品架构迭代本质主要是Tensor Core的不断升级，架构由Volta演进至目前的Blackwell，Tensor Core经历了1.0至5.0的版本升级。 下面我们逐一分析架构的演进情况，首先是由V100至A100，见下图： 图表：V100→A100核心变化 核心升级点： 算力翻倍+引入异步复制技术优化内存 1、算术规模—V100：以8 Thread（线程）为一组（warp线程组），协作执行 $8^{*} 8^{*} 4$ 矩阵乘法 $\rightarrow$ A100: 以32 Thread为一组，执行 $16^{*} 8^{*} 16$ 矩阵乘法（同8个周期A100完成的MACs/乘加运算是V100的2倍）； 2、精度：增加INT8/INT4，首次引入BF16； 3、引入异步复制技术（Async-Copy），优化数据移动路径（SMEM带宽提高3倍）—— 1）实现数据直接从L2到SMEM，绕开RF中转，显著降低RF压力并提升内存带宽利用率、减少数据移动时间：V100读+写6次→A100读2次（带宽提升了3x）；2）V100：数据加载与计算严格串行→A100：异步数据加载可与计算并行。 # 1.1.1 GPU架构演进的核心：Tensor Core ■ A100→H100核心升级点在于：引入线程块集群概念（4 SMs同时执行指令，性能显著提升且共享内存）+TMA（实现数据加载和计算的解耦，提升并行效率）+FP8精度。 Cluster Performance # 1、算术规模——H100新增线程块集群（Thread Block Cluster），4个SM组成一个集群： 1）支持4个warp组成group、相当于4个SM为一组集体执行指令，性能表现明显提高； 2）允许跨SM（一个集群里的4个SM）数据共享与低延迟通信，形成分布式共享内存（DSMEM） # 2、引入TMA（张量内存加速器）—— TMA能进行全局与共享内存间的批量异步数据输送：A100线程需参与地址生成、数据搬运，影响计算效率→H100引入TMA可以实现数据加载与计算的解耦，大幅提升TC利用率； # 3、引入FP8精度——吞吐量是 FP16/BF16 的2倍，占用的内存空间是其一半。 # 1.1.1 GPU架构演进的核心：Tensor Core Hopper→Blackwell核心升级点在于：引入双die设计（TC指令拓展至2 SMs、实现算力翻倍）+低精度浮点类型丰富（如MXFP4和NVFP4）+引入TMEM（彻底取代RF、降低功耗和延迟）。 Hopper Tensor Cores $\rightarrow$ Blackwell Tensor Cores 1、Blackwell采用双die设计，将TC指令扩展至2个SM（实现算力翻倍）——引入CTA Pair机制：Blackwell允许两个CTA（即2 SM）共享操作数，降低内存带宽需求，且将M矩阵维度翻倍（128翻倍至256）； 2、新增MXFP系列微缩放浮点格式（MXFP8/6/4）和NVFP4格式，并大幅削减FP64吞吐量，在Blackwell Ultra中进一步降低INT8计算能力，凸显低精度浮点类型的绝对优先级； 3、指令简化：单线程即可发起MMA操作，而Hopper需all warpgroup集体发起指令； 4、引入TMEM（张量内存）：存储 MMA操作数（A/D），彻底取代RF，释放线程寄存器空间用于其他工作。 # 1.1.1 GPU架构演进的核心：Tensor Core ■ 提升计算效率、优化内存、支持更低精度是主要目标。在NVIDIA张量核心的演进历程中，其规模与内存系统的迭代始终围绕提升计算效率与缓解数据移动瓶颈展开，同时在精度上持续丰富低精度浮点类型、提高低精度算力优先级。 图表：英伟达GPU架构演绎总结 Volta Ampere Hopper Blackwell Blackwell Ultra 演绎核心逻辑 TC计 算规 模 FP16计算能力 (FLIOP/周期/SM) 1024 2048 4096 8192 2*Blackwell 提升Tensor Core规模,实 现算术强度线性增长:MMA 计算量随问题规模呈立方增 长,数据移动量仅呈平方增 长,扩大TC尺寸可有效提升 计算密度。 MMA形状(m*n*k) 8*8*4 16*8*16 64*256*16 内存 迭代 数据存储位置 矩阵A、B、D均存 储于RF 矩阵A、B、D均存储矩阵A存储于SMEM/RF,B存储于 SMEM,D存储于RF 矩阵A存储于SMEM/RF,D存储于TMEM 矩阵A存储于SMEM/TMEM,B存储于SMEM, D存储于TMEM “扩展容量+架构优化”持续 适配计算需求:通过优化存 储路径和位置,减少寄存器 压力,利用更贴近Tensor Core的内存TMEM降低功耗 和延迟,提高Tensor Core利 用率。 数据移动路径 L2→L1→RF→SM EM→RF L2→SMEM→RF L2→SMEM→RF(引入TMA加速 异步数据输送) L2→SMEM→TMEM(引入TMEM取代RF) 容量 SMEM:96KB L2:6MB RF:256KB SMEM:164KB L2:40MB RF:256KB SMEM:228KB L2:50MB RF:256KB SMEM:228KB(CTA pair 机制使得等效内存翻倍) L2:130MB TMEM:256KB 2*Blackwell 带宽 900GB/s 1555GB/s 3350GB/s 8000GB/s 精度 变化 FP64 × √ √ √ √(!砍算力) 降低精度提升算力同时兼顾 功耗和芯片面积:低精度类 型能提升吞吐量且减少内存 占用与带宽需求,适配AI模 型参数量激增趋势,虽然其 牺牲部分精度,但深度学习 尤其是推理对精度要求较低。 FP16 √ √(+BF16) √(+BF16) √(+BF16) √(+BF16) INT8 × √ √ √ √(!砍算力) INT4 × √ ×(注:低精度整数在LLM推理普 及滞后) × × FP8 × × √ √ √ MXFP × × × √(+MXFP8/6/4、NVFP4) - CUDA与NVIDIA GPU的Tensor Core等硬件深度绑定，CUDA-X库（cuBLAS、cuDNN、TensorRT）针对自身硬件做极致优化，Tensor Core硬件迭代会同步更新CUDA特性，形成“硬件强→软件优→应用好”的正向循环，建立并巩固其生态壁垒。在深度学习训练中，Tensor Core专门针对矩阵乘加运算进行硬件加速，而CUDA则负责将矩阵运算任务合理地分配到Tensor Core上执行，两者紧密配合大幅提升了英伟达GPU产品性能及应用模型的训练效率；随着Tensor Core的持续迭代，CUDA也在不断更新以充分发挥硬件性能（最新一代CUDA已升级至13.1），这种硬件与软件的深度融合和协同创新，形成“性能提升→更多应用→更多开发者→更多优化→更高性能”的良性循环，并构筑英伟达的生态壁垒。 图表：Tensor Core升级构建了英伟达生态护城河的良性循环 图表：英伟达最新一代CUDA Toolkit 13.1 > TensorRT：深度学习推理优化工具，用于加速推理过程。TensorRT依赖于CUDA和cuDNN，通过模型量化、层融合、内核自动优化等技术提升推理速度。 cuDNN: 深度学习专用库, 针对卷积、池化、激活函数等神经网络操作进行硬件级优化, 是主流深度学习框架的“性能底座”。 cuBLAS：线性代数库，实现矩阵乘法、向量运算等BLAS标准接口，优化程度极高（如采用张量核心加速），是深度学习框架的核心依赖。 ■ 软件本质是为硬件服务，因此Tensor Core迭代的同时CUDA也在同步更新以更好适配硬件，两者绑定配合提升产品性能并巩固英伟达的生态优势。以25年12月发布的最新一代CUDA 13.1为例： > CUDA Tile是最核心的更新，其简化了编程难度并兼容当前（Blackwell）及未来的GPU架构：在AI领域张量已成为一种基础数据类型，Tensor Core（TC）和TMA已成为新GPU架构中必要的组成部分；硬件越复杂就越需要软件的支持，因此CUDA Tile对TC及其编程模型进行了抽象，引入了一种比SIMT层级更高的新型GPU编程方式——基于tile的编程模型，其能够以更高的层次编写算法，屏蔽了调用Tensor Core等专用硬件的底层细节，开发者无需在逐元素的层面上设定算法的执行细节，编译器和运行时将处理这些工作，且Tile代码将能够兼容未来的GPU架构。 > 增强对低精度的支持如FP4/FP8/BF16，提升推理性能：CUDA 12.9在英伟达Blackwell平台上引入了块缩放的FP4/FP8矩阵乘法，CUDA 13.1进一步增加了对上述数据类型和BF16的性能支持；“块缩放低精度计算”配合Blackwell硬件特性，在大模型深度学习场景中较H200性能提升数倍。 图表：CUDA 13.1更新对硬件性能的提升 CUDA Tile IR是AI编译器基础架构：其专注于tile级别的计算，该粒度可以充分利用复杂的内存层次结构，最大限度提高GPU吞吐量；同时使编程加速更简便，显著降低了开发门槛，巩固了英伟达生态系统的优势。 图表：英伟达Blackwell产品配合CUDA升级较H200性能明显提速 # 1.2 ASIC: 专业的AI定制芯片 相较于GPU，ASIC芯片在业务逻辑确定且需求量较大的场景下具备高能效、低功耗、降成本的优势。以英伟达GPU芯片和美国四大云商自研ASIC芯片对比为例，1）功耗方面：ASIC芯片功耗明显低于GPU芯片，谷歌最新发布的TPU v7功耗约为GB200的35.5%；2）能效方面：虽然ASIC与GPU在算力水平上仍存在一定差距，谷歌TPU v7算力约GB200的46.1%，但结合功耗后其能效比优于GB200（较GB200能效比提高26.3%），亚马逊及其他云商ASIC芯片能效比较英伟达系列芯片均处在较优水平；3）成本方面：云商通过设计服务厂商自研ASIC芯片相较于直接外采英伟达GPU芯片可以明显降低成本，几大龙头ASIC设计厂商（Broadcom、Marvell）产品平均销售价格约5000-6500美金，较GPU芯片降本50%-60%，同时由于ASIC定制化的特点，随着需求提升、其规模效应有望提高，成本优势更加凸显。 图表：GPU与ASIC芯片参数对比 GPU ASIC 厂商 英伟达 谷歌 亚马逊 Meta 微软 代表产品 GB200 B200 H200 TPU v7 TPU v6 TPU v5 Trainium 3 Trainium 2 MTIA v2 MTIA v1 Maia 100 发布时间 2024 2024 2023 2025 2024 2023 2024 2023 2024 2023 2023 制程 4nm 4nm 4nm 3nm 4nm 5nm 3nm 5nm 5nm 7nm 5nm FP16 (TFLOPS) 5000 2250 836-990 2307 918 196.5-459 1310 667 177 51.2 800 功耗(W) 2700 1000 600-700 959 383 225-537 728 500 90 50 500 能效比(TFLOPS/W) 1.9 2.2 1.4 2.4 2.4 0.9 1.8 1.3 2 2 1.6 平均单价($) 约13000 约5000-6500 注：英伟达芯片平均单价取2024年其GPU业务营收/出货量，四大CSPs芯片平均单价取Broadcom、Marvell 2024年ASIC业务营收/出货量 ■ 谷歌由15年部署首款TPU产品，之后持续迭代，最新一代为TPU v7（Ironwood）。 谷歌TPU Chip的核心有Tensor Core、HBM和ICl 1. Tensor Core：计算单元。包括最主要的MXU矩阵计算单元，用来执行大规模矩阵乘法，相当于NVIDIA GPU的“Tensor Core”，MXU采用脉冲阵列架构，其每个处理单元（PE）执行小型计算（如乘积和累加）并将“结果/输入”传递给相邻PE；此外还有VPU向量计算单元。 2. HBM：高速存储单元。 3. ICI: 芯片之间高速互联单元。 图表：谷歌TPU发展历程 图表：谷歌TPU Chip基础架构 注：红框的TPUv3 only表示v1、v2架构里每个Tensor Core中只有1个MXU，而TPUv3中有2个，后续v4、v5、v6升级为4个MXU，v7又回到2个。 TPU架构演进的核心在于MXU数量和规模、HBM容量和带宽、Die的数量和拓扑及ICI互联的进化。 图表：谷歌TPU v2 $\rightarrow$ v3 $\rightarrow$ v4架构主要变化 # v2: 每个Chip包含2个Tensor Core和 16GB HBM2 > 2个Tensor Core：每个Tensor Core含1个MXU，一次可以完成128x128个16-bit的乘加操作，总算力45.9TFLOPs。 16GB HBM2: 2个8GB Stack，带宽共600GB/s。 > ICI互联：提供4条ICI Link，每条Link的传输速率达62GB/s，单芯片互联带宽为4x62=248GB/s。 拓扑架构：16x16 2D Torus，集群规模256个。 核心升级： MXU数量x2、算力x2.7+ HBM容量x2、带宽x1.5+ ICI互联带宽提升13% # v3: 每个Chip包含2个Tensor Core和32GB HBM2—— 2个Tensor Core：每个Tensor Core含2个128x128的BF16 MXU，总算力123TFLOPs。 > 32GB HBM2：带宽900GB/s。 > ICI互联：提供4条ICI Link，每条Link的传输速率提升至70GB/s，单芯片互联带宽为4x70=280GB/s。 拓扑架构：32x32 2D Torus，集群规模1024个。 核心升级： MXU数量x2、算力x2.2+HBM带宽提升33%+引入3D环面拓扑架构，ICI互联link增 加至6条 # v4: 每个Chip包含2个Tensor Core和 32GB HBM2 > 2个Tensor Core：每个Tensor Core含4个128x128的BF16 MXU，总算力275TFLOPs。 > 32GB HBM2：带宽1200GB/s。 > ICI互联：提供6条ICI Link，每条Link的传输速率提升至50GB/s，单芯片互联带宽为6x50=300GB/s。 拓扑架构：引入4x4x4 3D Torus，集群规模4096个。 # TPU架构演进的核心在于MXU数量和规模、HBM容量和带宽、Die的数量和拓扑及ICI互联的进化。 图表：谷歌TPU v4 $\rightarrow$ v5 $\rightarrow$ v6架构主要变化 v4至v5 核心升级：算力 x1.7（由于时钟频率提高）+HBM2迭代为 HBM2e+集群规模进一步增加 # v5p: 每个Chip包含2个Tensor Core和92GB HBM2e: 2个Tensor Core：每个Tensor Core含4个128x128的BF16 MXU，总算力459TFLOPs。 > 92GB HBM2e：带宽共2765GB/s。 > ICI互联：提供6条ICI Link，每条Link的传输速率100GB/s，单芯片互联带宽为6x100=600GB/s。 拓扑架构：4x4x4 3D Torus，集群规模8960个。 # v5e: 每个Chip包含1个Tensor Core和16GB HBM2e: 1个Tensor Core: 每个Tensor Core含4个128x128的BF16 MXU, 总算力197TFLOPs。 16GB HBM2e：带宽共819GB/s。 > ICI互联：提供4条ICI Link，每条Link的传输速率50GB/s，单芯片互联带宽为4x50=200GB/s。 拓扑架构：16x16 2D Torus，集群规模256个。 v5至v6 v6e基本对标v5e，较v5e有以下升级：MXU规模x2+HBM2e迭代为HBM3（容量及带宽x2）+ICI互联带宽x2 # v6e: 每个Chip包含1个Tensor Core和32GB HBM3: > 1个Tensor Core：每个Tensor Core含4个256x256的BF16 MXU，总算力918TFLOPs。 32GB HBM3：带宽共1600GB/s。 > ICI互联：提供4条ICI Link，每条Link的传输速率100GB/s，单芯片互联带宽为4x100=400GB/s。 拓扑架构：16x16 2D Torus，集群规模256个。 TPUv7首次引入双Compute Die > 2个TensorCore：每个芯片包含2个TensorCore，每个TensorCore包括1）1个VPU（向量处理单元）+2个MXU（核心矩阵计算单元）：负责AI任务的核心运算；2）2个XLU（辅助计算单元）+1个TCS（控制模块）：配合核心单元调度计算流程，Vmem作为计算过程的临时存储。v7 BF16算力为v6的2.5倍，且首次支持FP8。 4个Sparse Compute Engines: 专门处理AI场景中常见的“稀疏数据”（包含大量无效/零值的数据）。 > Latest Gen HBM: 采用8x HBM3E 8-Hi（8组HBM3E 8层堆叠），容量192GB（v6的6倍），带宽7.38TB/s（v6的4.5倍）。 > ICI Router: 右侧大规模互连模块，支持最多9216颗Ironwood芯片高速互连，ICI单向带宽为1.2TB/s（v6的3倍），通过SerDes直接对外。 > Host&Mgmt Plane: 通过PCIe Gen5（高速接口）连接主机（Host），实现芯片与外部系统的数据交互。 图表：谷歌TPU v7芯片内部架构框图 # 1.2.1 谷歌TPU迭代总结：算力、内存和集群规模不断升级 ■谷歌TPU由v2迭代至最新的v7，一方面在芯片内部不断提高算力、增加精度类型（引入FP8）、升级内存容量及带宽，另一方面不断扩展芯片集群规模（由v2的256颗提高至v7的9216颗）和芯片间互连带宽。 图表：谷歌TPU系列芯片参数迭代梳理 谷歌TPU系列 TPU v1 TPU v2 TPU v3 TPU v4 TPU v5e TPU v5p TPU v6 TPU v7 发布时间 2016年 2017年 2018年 2022年 2023年 2024年 2025年 单元配置 - - - - 1x Compute Die, 1x Compute Die, 1x IOD, 2x HBM2E 4-Hi 1x IOD, 6x HBM2E 8-Hi 1x Compute Die, 1x IOD, 2x HBM3 8-Hi 2x Compute Dies, 1x IOD, 8x HBM3E 8-Hi 制程 28nm 16nm 16nm 7nm N5 N5 N5P N3E 芯片规格 HBM容量(GB) 无HBM,板载 DDR3 16GB HBM2 32GB HBM2 32GB HBM2 16GB HBM2E 95GB HBM2E 32GB HBM3 192GB HBM3E HBM带宽(GB/s) 34(外设带宽) 600 900 1200 819 2765 1640 7380 FP8 TFLOPs (Dense) - - - - - - - 4614 INT8 TOPs (Dense) 92 - - 275 394 918 1836 4614 BF16 TFLOPs (Dense) - 45 123 275 197 459 918 2307 TDP/最大功耗(W) 75 280 450 - ~300 ~550 ~390 ~980 ICI互联 Link数 - 4 4 6 4 6 4 6 带宽/Link(GB/s) - 62 70 50 50 100 100 200 总带宽-单向(GB/s) - 248 280 300 200 600 400 1200 集群规模 拓扑架构 - 2D环面 2D环面 3D环面 2D环面 3D环面 2D环面 2D/3D环面 机柜数 - 4 16 64 4 140 4 144 分布 - 16x16 32x32 4x4x4 16x16 4x4x4 16x16 4x4x4 集群数量 - 256 1024 4096 256 8960 256 9216 注：Compute Die为计算芯片，IOD为接口芯片 # 1.2.2 谷歌TPU凭借OCS技术实现大规模互连 TPUv7通过ICI（芯片间互连）网络+OCS（光交叉连接器）协同架构，突破传统互连瓶颈，实现9216颗芯片的超大规模集群，实现互连的核心机制如下—— $\succ$ 集群基础单元与拓扑设计：以4x4x4的64颗TPU芯片为基础立方体（对应1个rack），9216颗芯片由144个该立方体组成，所有立方体形成统一的3D环面拓扑。 具体连接方式：每颗TPU共连接6个相邻节点（X/Y/Z轴各2个），立方体内部通过铜缆和PCB走线连接，跨立方体的连接（包括立方体“+”面与其他立方体“-”面的连接、环面折返连接）均通过光模块与OCS实现；如下图所示，位于Z+面的TPU（坐标2,3,4）通过800G光模块实现折返连接，经OCS路由至Z-面的对应TPU（坐标2,3,1）。 - OCS相当于“光交换枢纽”，支持144个立方体的96个光连接端口（共13824个端口），只需48个144x144端口的OCS统筹调度，实现全集群互连。 图表：谷歌TPUv7集群基础单元 图表：谷歌TPU v7芯片互连方式 # 1.2.2 谷歌TPU凭借OCS技术实现大规模互连 # OCS带来的效益—— > 突破规模天花板，支持超大规模并行计算：9216颗芯片的最大集群规模远超传统GPU集群（64/72颗芯片），考虑到有效吞吐量下降的缺点，上限规模较少使用，但数千颗芯片切片能够且已被广泛使用，TPU集群已通过实际模型（如Gemini 3）训练验证了其可行性。 > 高可重构性与集群可用性：OCS支持动态路由，可绕开故障节点重构网络，大幅提升集群可用性（相同切片规模下，带OCS的集群“有效吞吐量”显著高于无OCS方案）；同时支持数据并行、张量并行、流水线并行等多种并行拓扑，立方体可跨物理位置灵活组合，无需受限于物理机架布局。 > 更低的网络成本、延迟及能耗:相比NVIDIA GB300等GPU集群的交换网络,TPUV7通过OCS减少了交换机和端口数量并消除了交换机之间连接产生的成本,9216颗芯片集群的网络资本成本仅1709万美元(约$1855/芯片),远低于GB300的4230万美元(约$4590/芯片);且OCS无需光电信号转换,延迟更低、能耗更优。 > 支撑数据中心级扩展：OCS不仅用于单集群内部互连，还部署在数据中心网络互连（DCNI）层，可将多个9216颗芯片集群扩展为147k颗芯片的超大型网络，且扩展时无需大幅重新布线，仅需新增OCS模块和调整路由配置，为集群长期升级提供灵活性。 图表：有/无OCS情况下集群“有效吞吐量”对比 图表：集群互连网络的成本对比 # 1.2.2 谷歌TPU v8计划于2027年推出，采用双轨策略 ■ Google计划于2027年推出的第八代TPU（TPUv8）系列，摒弃了第四、五代产品中“P版（完整版）”与“E版（精简版）”的简单SKU划分模式，采用与不同芯片厂商联合研发的双轨策略，形成两款定位差异化的产品形态，其核心差异体现在技术架构与供应链合作逻辑两方面—— > TPU 8AX（代号“Sunfish”）：与Broadcom联合开发，是面向高性能计算场景的主力产品。其对标Nvidia高端加速器，沿用“2个计算芯片+1个I/O芯片+8组12层堆叠HBM3E内存”的封装结构，技术迭代聚焦于在成熟架构基础上实现性能稳步提升。 TPU 8X（代号“Zebrafish”）：与MediaTek联合研发，是Google优化供应链成本、推进技术自主化的战略载体。其在架构上进行精简，仅配置“1个计算芯片+1个I/O芯片+6组12层堆叠HBM3E内存”；核心创新在于供应链整合，通过与MTK的合作，Google可逐步掌控芯片设计全流程，实现HBM内存的直接采购（主要供应商为SK海力士），规避了Broadcom供应链中的溢价环节（HBM内存通常占据芯片封装级BOM成本的最大份额）。 图表：谷歌TPU v8系列两种型号芯片简要情况 TPU v8系列 开发模式 较上一代的核心变化 定位 制程 核心技术参数 架构 内存 TPU 8AX 与Broadcom联合开发：Google主导计算单元设计，Broadcom提供SerDes等核心PHY技术与控制器，并通过“系统级封装（SiP）”整体报价模式，将HBM等硬件成本纳入自身成本结构并叠加利润 延续上一代Ironwood芯片架构，聚焦于在成熟架构基础上实现性能稳步提升 面向高性能计算场景的主力产品，对标Nvidia高端加速器的核心机型 N3E 2x Compute Dies+1x IOD+8x HBM3E 12-Hi 搭载SK海力士提供的9.6Gbps高引脚速率内存颗粒，内存带宽较v7提升30% TPU 8X 与MediaTek联合研发：Google主导计算单元设计，MTK采用灵活定制化合作模式，提供I/O芯片与封装设计，Google仅向其支付核心技术增值费用，最大限度贴近硬件物料成本（BOM成本）采购 合作模式的重构，Google试图通过与MTK合作，打破博通在供应链中的溢价壁垒 优化供应链成本、推进技术自主化的战略载体 N3P 1x Compute Dies+1x IOD+6x HBM3E 12-Hi - # 亚马逊芯片包括Inferentia（推理）和Trainium（训练）两类，最新推出的Trainium3架构如下—— 1）NeuronCore（核心计算单元，相当于谷歌TPU中的TensorCore）：经历了v1至v4四代，提供的算力和支持的精度不断增加，Trainium3采用8个NeuronCore-v4；2）Device Memory（内存）：由DDR演变为HBM，HBM逐步升级、容量和带宽实现翻倍增长，Trainium3采用4 HBM3e 12-Hi，容量144GB、带宽达4.9TB/s；3）NeuronLink（互连）：实现芯片间互连，版本由v1迭代至v4，数量由2个增加至4个，Trainium3采用v4版本，可实现最大双向互连带宽2.56TB/s（v1为32GB/s）；4）Data Movement（DMA）和Collective communication（CC-Core）：DMA支持内联内存压缩与解压缩功能，CC-Core负责协调芯片Instance内部及跨Instance间的集合通信。 图表：亚马逊Trainium3芯片架构 图表：亚马逊Trainium3封装架构 Trainium3 封装架构 (CoWoS-R) CoWoS-R 优势：比硅中介层成本更低，机械柔性更好，支持光罩级尺寸。·More Than Semi IPDs弥补了有机中介层在细微布线和电源完整性方面的不足。 # 1.2.3亚马逊：自研芯片最新版本迭代至v3 亚马逊推理芯片迭代至v2、训练芯片迭代至v3，Trainium3预计于26年量产发布，较v2的升级点包括1）算力方面：FP8算力提升至2倍、支持更低精度FP4；2）内存方面：HBM3E堆叠由8层升级至12层，容量提升50%、带宽提升70%，下一代Trainium4预计采用HBM4 8-Hi，容量和带宽较v3进一步提升；3）互连方面：带宽提升至2倍，Trainium3采用新型交换结构，单服务器芯片数量由16/64拓展至64/144。 图表：亚马逊ASIC芯片参数迭代情况梳理 型号 Inferentia1 Inferentia2 Trainium1 Trainium2 Trainium3 发布时间 2020 2023 2022 2024 2026E 制程 7nm 5nm 7nm 5nm 3nm Neuron Core 版本 v1 v2 v3 数量 4 2 8 FP32算力（TFLOPS） - 47.5 159 FP16算力（TFLOPS） 64 191 632 INT8算力（TOPS） - 380 - FP8算力（TFLOPS） - 191 1264 FP4算力（TFLOPS） - - - 内存 类型 DDR4 HBM2E-8Hi HBM3E-8Hi HBM3E-12Hi 容量 8GB 32GB 96GB 144GB 带宽 50GB/s 820GB/s 2.9TB/s 4.9TB/s 版本 v1 v2 v3 v4 Neuron Link 数量 2 2 4 4 4 双向带宽 32GB/s 192GB/s 384GB/s 1.28TB/s 2.56TB/s 单服务器芯片数量 - - - 16/64 64/144 图表：亚马逊Trainium2至3的代际升级及未来Trainium4展望 规格 Trainium2 (Trn2) Trainium3 (Trn3) 变化/影响 OCP MXFP8 FLOPs Tm2值 Tm3值 2倍提升 OCP MXFP4 支持 无 支持 支持，性能与 MXFP8相同 FP16/FP32 性能 Tm2值 Tm3值 相同 HBM3E容量 96GB (8-Hi) 144GB (12-Hi) +50% HBM3E带宽 5.7Gbps 引脚速度 9.6Gbps 引脚速度 +70%提升，切换到 Hynix/Micron 以提高速度 纵向扩展带宽 PCIe Gen 5 (32Gbps/通道) PCIe Gen 6 (64Gbps/通道, 144 遮道) 2倍提升至 1.2 TB/s 单向 横向扩展带宽 200 Gb/s 最大 400 Gb/s 最大支持2倍提升，大多数机架将保持200Gb/s 未来展望: TRAINIUM4 Trainium4 预期 8 堆叠 HBM4 4 倍内存 带宽 2 倍内存容量 (相比 Tm3) 显著的代际飞跃 # 1.2.4 ASIC优势：定制化架构在推理领域表现突出 ■ ASIC在推理领域表现突出：在推理阶段，AI模型已训练完成，需要对输入的数据进行快速的预测和分类，此时对芯片的计算精度要求相对较低，但对计算速度、能效和成本等要求较高；而ASIC高度定制化的设计能针对推理任务进行优化，能够以较低的功耗实现快速的推理计算，具备低延迟（每次请求响应速度快）、高吞吐量（多次并行推理）、功率效率（每次运行能耗低）的优势，显著适配推理需求。 # ASIC 凭借 其定 制化 架构 在推 理上 具备 明显 优势 专用架构：脉动阵列、卷积和矩阵乘法单元 通过应用脉动阵列无需额外的控制逻辑来处理数据并减少访存的次数，同时矩阵乘法和卷积运算完美适配脉动阵列的架构范式，实现计算密集型任务的极致优化。 剔除冗余模块 ASIC通过针对具体算法和任务优化电路设计，剔除冗余模块（如GPU的图形渲染单元、通用计算模块），能够将算力集中投入到核心运算中，在算法固定的推理场景下能效显著提升，如谷歌TPU v4中95%晶体管用于矩阵计算单元，而GPU不足60%。 内存访问优化 通过低功耗推理的量化（如INT8/4）运算减少内存占用，如Embedding Gemma模型在TPU上通过4位量化和混合精度计算，降低4倍内存占用；同时通过XLA编译器提前分析计算图来生成优化过的程序，提前确定所需的内存访问以避免使用缓存。 定制化设计 不同于传统冯·诺依曼架构“计算-存储”分离模式，ASIC可围绕算法特征定制数据流。如博通为Meta定制的芯片中，计算单元直接嵌入存储控制器周围，数据移动距离缩短 $70\%$ ，延迟降低至GPU的1/8。 批量推理 在批量推理场景中，ASIC的并行计算优势突出：如TPU v4在处理Llama-2-7B模型时，吞吐量较A100提升约 $14\%$ 。 高能效比 高吞吐量 低延迟 # 1.2.4 ASIC优势：组网互联上具有低成本、易扩展等优势 # 与GPU相比，除推理性能优越外，ASIC在组网方面具备以下优势—— 1. 天然适配以太网，布线简、成本低：目前流行的GPU/ASIC集群网络组网方案包括NVLink、InfiniBand、ROCE以太网等。ASIC节点普遍使用标准以太网接口，可直接复用数据中心既有的以太网交换机和光模块生态，无需像GPU集群额外部署InfiniBand或NVLink/NVSwitch专用网络；交换机单价低、端口密度高，整体布线量与机间跳线种类大幅减少，CAPEX可显著下降。 2. 组网规模易横向扩展：高端以太网交换机ASIC可提供高达51.2Tbps的交换容量，配备800Gbps端口，其性能是Quantum-2（英伟达GTC大会上发布的InfiniBand网络平台）的两倍，交换机吞吐量翻倍，交换机数量可以减半。 3. 功耗低、散热压力小，应用于数据中心交换芯片，可提高电能使用效率并实现低延迟无损传输：ASIC的低功耗特性可显著降低散热成本，可以实现万节点规模部署的同时使数据中心PUE（电能使用效率）降至1.1以下；在AI集群中可确保GPU互联延迟<1μs，避免训练瓶颈。 ■ASIC边际成本低且体积小，适合大规模部署场景：使用ASIC可精简外围电路（如不再需要PCIe接口的复杂协议栈），主板面积减少40%，整机成本下降25%。虽然ASIC初期研发成本高，但边际成本下降曲线远陡于通用GPU。以谷歌TPU v4为例，当出货量从10万片增至100万片时，单颗成本从3800美元降至1200美元，降幅接近70%，而GPU的成本降幅通常不超过30%。 图表：NVLink交换系统 图表：TPU托盘（即“板卡”）层级结构 # 核心技术架构对比 1. 计算单元架构：GPU核心计算单元为CUDA Core+Tensor Core，支持从FP64到INT8的全精度谱系计算；谷歌TPU采用脉动阵列作为计算核心，可实现零内存访问的矩阵乘法，局限性在于仅适配特定张量运算模式，无法执行分支密集型任务。 2. 内存：GPU追求通用性和灵活性，通过缓存系统适应各种访问模式；TPU针对特定工作负载进行深度优化，通过专用内存架构减少不必要的内存访问。 3. 互连技术：GPU通过NVLink-C2C、InfiniBand等技术互连，TPU通过OCS光交换网络实现集群级优化。 4. 编程模型：GPU模型生态成熟度高、移植成本低；而谷歌TPU生态封闭仅限谷歌云，移植成本高。 5. 架构哲学分歧：GPU注重灵活性，关键设计原则包括保留图形管线、支持CUDA/OpenCL/Vulkan多API、可编程性优先于绝对性能；TPU则注重极致专用化，放弃通用性换取性能。 图表：GPGPU vs TPU核心技术架构对比 特性 GPU TPU 计算单元对比 核心单元 CUDA Core+Tensor Core 二维脉动阵列 典型配置 20000+核心（Blackwell架构） 128x128运算单元（v4版本） 精度支持 FP64/FP32/FP16/INT8 BF16/FP8/INT8 通用计算能力 完备 几乎无 内存对比 层次结构 片上缓存较小，外部高带宽内存容量大；通过多级缓存来隐藏内存访问延迟 片上内存容量大，外部内存相对较小；配备专用内存组织，数据加载无需经过缓存层次 容量 最高576GB HBM3E 最高192GB HBM3E 访问模式 通用灵活 专用优化 互连技术对比 NVLink、NVLink-C2C、InfiniBand 专用ICl互连、OCS光交换网络 编程模型对比 调试支持 完善的GPU调试器 无交互式调试 生态成熟度 20年积累 仅限谷歌云 移植成本 低（标准API） 极高（封闭生态） # 1.3性价比：TPU更具成本优势 TPU较GPGPU具有性价比优势，据SemiAnalysis测算，不管是谷歌自用还是外部客户租用，TPU v7单位芯片成本均显著低于GB200/300— > 单位芯片成本：自用TPU v7每小时总拥有成本（TCO）较GB200、GB300分别低44%、53%，外部客户租用TPU v7的TCO仍比GB200低约30%，比GB300低约41%。 > 单位性能单芯片成本：结合性能来看，谷歌自用TPU v7 FP8算力成本较GB200、GB300分别低 $39\%$ 、 $49\%$ ，外部客户租用TPU v7 FP8算力成本较GB200、GB300分别低 $12\%$ 、 $27\%$ 。 图表：Nvidia GPU与谷歌TPU不同型号单位芯片TCO（总拥有成本）对比 芯片 GB200 NVL72 GB300 NVL72 TPU v7-3D环面（内部使用） TPU v7-3D环面（外部使用） 客户场景 超大规模云厂商 超大规模云厂商 超大规模云厂商 新兴大型云服务商 每小时单位芯片总拥有成本TCO(USD/hr/GPU)$2.28 $2.73 $1.28 $1.60 资本成本占TCO百分比(%) 77.40% 79.00% 72.70% 72.70% 标称算力（FP8精度，TFLOPS） 5,000 5,000 4,614 4,614 每逻辑芯片内存带宽（TB/s） 8.0 8.0 7.3 7.3 内存容量（GB） 192 288 192 192 标称FP8算力/内存带宽（TFLOPS/TB/S） 625 625 632 632 TCO/标称FP8稠密PFLOP($/hr per PFLIOP) $0.46 $0.55 $0.28 $0.40 TCO/内存带宽($/hr per TB/s) $0.28 $0.34 $0.18 $0.25 TCO/内存容量($/hr per TB) $11.87 $9.47 $6.67 $9.65 来源：SemiAnalysis，中泰证券研究所 # 1.3性价比：TPU更具成本优势 # 考虑算力利用率（MFU）时，TPU仍具备较强的性价比优势—— > 自用：据SemiAnalysis测算，当谷歌模型算力利用率（MFU）约为 $15\%$ 时，其TCO与MFU为 $30\%$ 的GB300接近，而谷歌TPU的算力利用率可达 $40\%$ ，此时TPU v7每有效训练浮点运算的成本将较GB300大幅降低约 $62\%$ 租用：据SemiAnalysis测算，Anthropic租用TPU可以实现 $40\%$ 算力利用率，其每有效千兆次浮点运算（PFLOP）总成本比GB300 NVL72低约 $52\%$ 图表：不同算力利用率下，单位有效训练FP8稠密算力的TCO对比（$/hr per Eff PFLOP） # GPU和ASIC各有优劣 > GPU架构的核心优势在于其强大的通用性和灵活性。通过TMA技术、HBM3e高带宽内存、NVLink互连、统一内存架构等创新技术，GPU在保持通用性的同时大幅提升了内存带宽和推理性能。 > ASIC架构的核心优势在于其针对特定任务的极致优化和高性价比。谷歌TPU通过脉动阵列架构、大容量片上存储、专用互连设计等技术，在能效比上实现了突破，其单位算力芯片成本较英伟达显著降低，具有高性价比优势。 总结来说，GPU适合需要灵活性和通用性的场景，ASIC适合大规模、固定模型算法/工作负载的场景，两者将长期共存，随AI大模型发展和算力需求增长的行业β持续向上。 图表：GPGPU vs TPU应用场景分析 # 1.4 国产算力芯片代表厂商：华为 ■华为昇腾NPU芯片基础架构：核心单元为达芬奇AI Core。华为昇腾芯片采用自研达芬奇架构，主要包括达芬奇AI Core（核心计算单元，类似于谷歌TPU里的Tensor Core）、DMA和HBM（存储，其中DMA实现数据并行搬运）、TS Subsys（调度器，接收CPU指令并分配任务）、NOC通信总线（进行数据搬运拷贝）。 ■达芬奇AI Core内部包括矩阵计算单元、存储系统、控制单元（调度相关）和总线（通信）四大模块。1）计算单元：包括矩阵计算、向量计算和标量计算；2）存储系统：包括存储控制单元（直接访问AI Core外缓存，如L2/HBM等）、输入/输出缓冲区（暂存需频繁复用数据及计算中间结果，减少数据访问频次，提升效率并节省功耗）和专用/通用寄存器；3）控制单元：控制任务块的执行进程，发射指令至对应的执行队列，同时通过事件同步模块控制每条流水线的执行状态；4）指令总线：帮助控制单元（调度器）发射指令。 图表：华为昇腾910芯片总体架构图 图表：华为昇腾910芯片达芬奇AI Core内部结构图 ■ 18年发布首款昇腾AI芯片昇腾310，19年推出旗舰产品昇腾910，23年推出910系列增强款910B。1）310：采用12nm FinFET工艺制程，集成4个达芬奇AI Core，INT8算力达16 TOPS，FP16算力达8 TFLOPS，典型功耗8W；2）910：采用7nm FinFET工艺制程，架构上采用“1Compute die+1 I/O die+4 HBM”，集成32个达芬奇AI Core，INT8算力达512 TOPS，FP16算力达256 TFLOPS，功耗350W。3）910B：采用7nm工艺，在保持架构基本不变的情况下，通过工艺优化将FP16算力提升至320 TFLOPS。 ■ 25Q1推出910C，采用7nm工艺，通过双die封装设计整合两颗昇腾910B，实现了性能的显著提升。双die封装架构采用类似英伟达B200的设计理念，即将两颗独立的芯片die分别放置在各自的中介层，再通过有机基板将两个中介层连接起来，FP16算力提升至800 TFLOPS，并支持348卡超节点集群。 图表：Ascend 310和910性能对比 Ascend Architecture 图表：Ascend 910裸片布局和整体尺寸 # Ascend910 Die Shot Total 8 Dies integrated Two dummy dies are added to ensure mechanical uniformity Total size: 456+168+96x4+110x2=1228mm² # 1.4华为昇腾芯片未来演进路线： $950\rightarrow 960\rightarrow 970$ 华为全联接大会2025公布了昇腾AI芯片4年5款产品路线图：25Q1推出910C，26Q1推出950PR，26Q4推出950DT，27Q4推出960，28Q4推出970。 > 950系列：1）微架构的全面升级：由SIMD升级为SIMD/SIMT，提升了芯片编程灵活性的同时增强了对复杂AI工作负载的适应性。2）关键性能参数提升：算力方面，通过架构优化支持中低精度算力，FP8/FP4算力分别达1/2 PFLOPS；内存方面，采用华为自研HBM技术，规划了两个版本，950PR芯片采用HiBL 1.0内存，可提升推理Prefill（预填充）和推荐业务性能，950DT采用HiZQ 2.0内存，可提升推理Decode（解码）和训练性能，容量、带宽大幅提升。 > 960、970系列：1）算力持续翻倍：960 FP8/FP4算力将翻倍至2/4 PFLOPS，970将再度翻倍至4/8 PFLOPS；2）互联带宽跨越式提升：960的互联带宽将达2.2TB/s，970提升至4TB/s，为构建更大规模的AI训练集群提供了可能；3）存储系统全面升级：960内存容量翻倍至288GB，带宽达到9.6TB/s；970虽然容量维持288GB，但带宽进一步提升至14.4TB/s。 图表：2025-2028年华为昇腾芯片演进路线图 芯片 910C 950PR 950DT 960 970 时间 25Q1 26Q1 26Q4 27Q4 28Q4 微架构 SIMD SIMD/SIMT SIMD/SIMT SIMD/SIMT SIMD/SIMT 支持精度 FP32/HF32/FP16/BF 16/INT8 FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/MXFP4 FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4 FP32/HF32/FP16/BF16/FP8/ FP32/HF32/FP16/BF16/FP8/ MXFP8/HiF8/MXFP4/HiF4 FP32/HF32/FP16/BF16/FP8/ MXFP8/HiF8/MXFP4/HiF4 互联带宽 784GB/s 2TB/s 2.2TB/s 4TB/s 算力 FP16 800TFLOPS FP8 1PFLOPS FP4 2PFLOPS FP8 2PFLOPS FP4 4PFLOPS FP8 4PFLOPS FP4 8PFLOPS 内存容量 128GB 128GB 144GB 288GB 288GB 内存带宽 3.2TB/s 1.6TB/s 4TB/s 9.6TB/s 14.4TB/s 来源：华为全联接大会2025，中泰证券研究所 # 1.4 昇腾迭代总结：性能提升的同时技术路线向GPGPU靠拢 ■昇腾AI芯片演进核心升级点包括三方面：1）性能提升：单芯片算力持续提高、支持精度类型不断丰富（尤其是低精度类型）、内存容量及带宽增加；2）芯片间互联能力优化：互联带宽提高的同时实现大规模集群，即将推出的950芯片PoD规模超8000颗（超过英伟达GB300NVL72）；3）由专用ASIC向GPGPU转型：950等新型号放弃纯ASIC的“硬化”设计，引入SIMD/SIMT双编程模型，SIMD能像流水线一样处理“大块”向量，SIMT便于灵活处理“碎片化”数据，这种混合结构可以实现专用效率+通用灵活的平衡。 图表：华为昇腾系列芯片参数迭代梳理 华为昇腾系列 310 910 910B 910C 950PR 950DT 960 970 发布时间 2018年 2019年 2023年 2025Q1 2026Q1 2026Q4 2027Q4 2028Q4 芯片规格 单元配置 - "1+1+4"架构: 1 Compute die+1 I/O die+4 HBM 双die封装设计整合2颗 910B 微架构 SIMD SIMD/SIMT 制程 12nm 7nm - - - 内存 容量(GB) 8GB LPDDR - 32GB 128GB 128GB 自研HBM (HiBL 144GB 自研HBM (HiZQ 1.0) 288GB 288GB 带宽(GB/s) - - 1600 3200 1600 4000 9600 14400 算力及功 耗 FP4 TFLOPs - - - - 2000 4000 8000 FP8 TFLOPs - - - - 1000 2000 4000 INT8 TOPs 16 512 640 1600 - - - - FP/BF16 TFLOPs 8 256 320 800 - - - - 支持精度 FP16/FP32/INT8 FP32/HF32/FP16/BF1 6/INT8 FP32/HF32/FP16/BF16/FP8/MXFP8/HIF8/MXFP4 FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/M XFP4/HiF4 TDP/最大功耗(W) 8 350 - - - - - - 互联 技术 - - HCCS UnifiedBus 1.0 UnifiedBus 2.0 - 带宽(GB/s) - - - 784 2000 2200 4000 超节点与 集群规模 SuperPoD(卡) - - - 384 8192 15000 - SuperCluster(万卡) - - - - 50 100 - # 1.4 国产算力芯片代表厂商：寒武纪 ■ 寒武纪思元芯片采用自研MLU架构，由MLU Core和MPU构成。核心计算单元为MLU Core（也称IPU），其具备完整计算、IO和控制功能，每4个MLU Core构成1个Cluster；在MLUv02及后续架构中每个Cluster内还会包含1个额外的Memory Core和1块SRAM（Shared RAM，共享存储单元），其中Memory Core用于SRAM、DDR存储单元和MLU Core之间的数据输送。以MLUv03为例，其采用4个IPU和1个MPU组成1个Cluster/MLUv03，IPU上包含独立的张量（TFU）、向量（VFU）和标量计算单元（ALU）以及存储单元（Neuron-RAM、Weight-RAM），MPU上有SRAM。 图表：寒武纪思元芯片MLUv03核心架构图 > MLU Core（IPU）内部结构：1）基础控制/运算模块：Control Unit负责指令的读取、译码和发射；I-Cache为指令缓存，VA-Cache为离散数据访问指令的专用缓存；ALU负责标量数据运算；GPR和SREG分别为通用和特殊寄存器。2）数据输送模块：IO-DMA用于实现片外存储与片内存储间的数据输送，也可用于实现寄存器与片内存储间的加载/存储等操作；Move-DMA用于IPU中存储单元与MPUSRAM间数据输送和类型转换；3）计算/存储模块：VFU/TFU为计算单元，实现向量和张量运算；Neural-RAM和Weight-RAM为存储器。 > MPU：实现单个Cluster内部SRAM和多个Cluster间SRAM的管理和通信。包括1）Cluster-DMA负责Cluster间和SRMA间数据输送；2）Global-DMA负责GPR与片外内存、GPR与SRAM、SRAM和DRAM间数据输送；3)SRAM相当于1级缓存，给具体计算提供数据。 ■ 寒武纪18年发布首款云端AI芯片思元100，基于寒武纪1.0架构，采用16nm工艺，FP16算力16 TFLOPS、INT8算力32 TOPS；19年发布思元220和270，分别应用于边缘端和云端，其中270芯片INT8算力较100芯片提升3倍；20年推出思元290，工艺升级为7nm，INT8算力较前一代270提升3倍，内存容量提高1倍、带宽提高11倍。 # MLU100→MLU220/270→MLU290 >MLU100基于寒武纪1.0架构（MLUv01），采用16nm工艺，FP16算力达16 TFLOPS、INT8算力达32 TOPS，内存容量6GB，带宽102GB/s，最大功耗110W。 >MLU220/270分别应用于边缘端和云端，基于MLUv02核心，工艺仍为16nm，MLU220/270 INT8算力达8/128 TOPS，功耗8.25/150W。 □ 架构关键升级：1）MLUv02：新架构基于片上网络（NOC）构建，保证思元270芯片内16个张量核心的并行效率；2）内存容量提高：16GB DDR4，带宽102GB/s。 >MLU290仍基于MLUv02核心，工艺升级为7nm，INT8算力达512 TOPS，功耗350W。 □ 架构关键升级：1）MLUv02：数量由16个拓展至64个，带动算力提升至270的4倍；2）内存：首次引入HBM2，容量32GB，带宽1228GB/s，解决DDR内存带宽瓶颈；2）互联能力增强：支持PCIe 4.0x16接口，芯片间互联带宽达600GB/s。 图表：寒武纪MLU220、270和290芯片架构示意图 MLU220 6MB SRAM LPDDR4x MLU270 32MB SRAM DDR4 MLU290 96MB SRA HBM2 MLU-LinkTM ■21年11月寒武纪发布第三代云端AI芯片思元370，首次采用Chiplet封装，核心由MLUv02进一步升级为MLUv03，INT8算力256 TOPS，内存带宽提升至思元270的3倍；22年3月推出升级款370-X8，采用双die四芯粒思元370设计，内存容量和带宽均较单die的370翻倍。 # MLU370→MLU590 >MLU370：首款采用Chiplet（芯粒）封装的芯片，基于MLUv03核心，采用7nm工艺，INT8算力最高达256 TOPS，功耗150W。 □架构关键升级：新增BF16精度，内存采用24GB LPDDR5、带宽307GB/s（为第二代云端芯片270的3倍）。 >MLU370-X8（升级款）：搭载双die四芯粒思元370，功耗250W。 □架构关键升级：双die设计，内存容量提高至48GB、带宽614GB/s，较前代370翻倍。 >MLU590：2023年推出、2024年量产，工艺沿用7nm，性能对标英伟达A100芯片（约为A100的 $80\% - 90\%$ ），A100 INT8算力624 TOPS，MLU590 INT8算力约500-560 TOPS。 图表：MLU370首次采用Chiplet（芯粒）封装 图表：MLU370互连架构 # 1.4寒武纪思元芯片迭代总结：架构持续升级、算力不断提升 ■ 寒武纪思元芯片架构经历了MLUv01至v03的演进，MLU核心数量和规模增加带动算力性能翻倍提升，目前主打产品590算力基本达到英伟达A100水平，下一代思元690预期在26年量产，性能对标英伟达H100的80%。 图表：寒武纪思元芯片参数迭代梳理 寒武纪思元系列 100 220 270 290 370-X4 370-X8 590 发布时间 2018年 2019年 2021年 2022年 2023年 芯片规格 MLU架构 v01 v02 v03 - 制程 16nm 16nm 16nm 7nm 内存 容量(GB) 6 LPDDR4 16GB DDR4 32GB HBM2 24GB LPDDR5 48GB LPDDR5 - 带宽(GB/s) 102 - 102 1228 307 614 - 算力及功耗 INT8 TOPs 32 8 128 512 256 500-560 FP/BF16 TFLOPs 16 - - - 96 250-280 支持精度 FP32/FP16/INT8 FP32/FP16/INT8 FP32/FP16/INT16/FP32/FP16/INT16/INT8/INT4 FP32/FP16/BF16/INT16/INT8/INT4 - TDP/最大功耗(W) 110 8.25 150 350 150 250 - MLU-Link高速互联 带宽(GB/s) - - - 600 - 200 - # 1.4 GPGPU国内代表厂商：摩尔线程 ■22-24年摩尔线程营业收入年均复合增速为 $206.45\%$ 。22年后AI发展提速、算力需求大幅增长，公司GPU营收呈翻倍式增长，由22年的0.46亿元增长至24年的4.32亿元。据公司业绩预告，25年收入预计14.5-15.2亿元，同比增长 $230.70\% - 246.67\%$ ■MUSA架构是公司自主研发的融合GPU硬件和软件的全功能GPU计算加速统一系统架构。MUSA架构历经苏堤、春晓、曲院、平湖四代芯片迭代，性能逐步提升，如最大显存容量由16GB增加至32GB、48GB和80GB。 图表：2022-2025前三季度摩尔线程收入及增速 图表：摩尔线程GPU架构迭代图 芯片类型 流片成功/发布时间 基本情况 苏堤 2021年 公司第一代GPU芯片，内置了全功能GPU的四大引擎，即拥有AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码引擎。 春晓 2022年 公司第二代GPU芯片，在提升芯片性能的同时，针对云计算以及GPU虚拟化的能力进行大幅优化；并且做到了对 DirectX 11和 DirectX 12的支持，为率先能支持 DirectX 11和 DirectX 12的国产全功能GPU，实现多款图形引擎的高性能适配，支持数字孪生以及工业设计、元宇宙等应用。 曲院 2023年 公司第三代GPU芯片，加强了AI训练和推理能力，公司基于该芯片搭建千卡集群智算中心。 平湖 2024年 公司第四代GPU芯片，增加了FP8精度支持，大幅提升AI算力，公司基于该芯片支撑面向DeepSeek类前沿大模型预训练的万卡集群智算中心解决方案。 # 1.4 GPGPU国内代表厂商：沐曦股份 ■23年后沐曦股份GPU收入起量，24年相关收入达7.25亿元。沐曦股份深度构建“1+6+X”生态与商业布局，23年后GPU收入增长迅猛，其GPU产品包括训推一体系列和智算推理系列，其中训推一体GPU板卡增速最快，且贡献主要营收（24年占比约 $69\%$ ）；公司25年Q1 GPU合计收入3.18亿元。 ■ 淋曦打造全栈GPU芯片产品，推出曦思N系列、曦云C系列、曦彩G系列。其中曦思N300（采用公司自研的XCORE 1.5架构及HBM3显存）、曦云C588（采用HBM2e显存，显存容量128GB）、曦云C600（采用HBM3e显存）正在研发待推出。 图表：2022-2025Q1沐曦股份收入及增速 图表：沐曦股份GPU产品概况 产品类型 型号 产品特征 应用场景 训推一体GPU 曦云C500系列 公司曦云C系列产品拥有多精度混合算力，内置大量运算核心，具有较强的并行计算能力和较高的能效比，适用于向量计算和矩阵计算等计算密集型应用，可广泛应用于智算训练与推理，通用计算，AI for Science等场景 云端智算(训推一体)，通用计算，AI for Science等 曦云C600系列 智算推理GPU 曦思N100系列 公司曦思N100产品系面向传统人工智能场景，内置性能强劲的视频处理器和运算核心，可广泛应用于智慧城市、智慧交通、智慧教育、智能视频处理等场景 云端及边端推理、视频转码 曦思N260系列 公司曦思N系列后续迭代产品系面向生成式人工智能场景，拥有多精度混合算力、大容量显存和较高的能效比，可广泛应用于大模型推理、生成式应用等场景 云端推理、一体机及工作站 曦思N300系列 图形渲染GPU 曦彩G100系列 公司曦彩G系列产品系面向图形处理场景，内置性能强大的图形处理器，可广泛应用于云游戏、数字孪生、云渲染、影视动画和专业制图等场景 云端及边端图形处理 # 目录 一、算力芯片：GPU vs ASIC 二、国产趋势一：算力自主可控是确定方向 三、国产趋势二：大厂自研芯片是必经之路 四、国产趋势三：芯片逐渐由单卡走向系统集成 五、投资建议&风险提示 # 2.1 GPGPU中国市场远期超万亿 中国AI智算GPU市场超万亿。据摩尔线程招股书，中国AI智算GPU的市场规模从2020年的142.86亿元迅速增至2024年的996.72亿元，期间年均复合增长率高达 $62.5\%$ 。未来，随着AI不断发展，对算力的需求预计将呈现指数级增长，根据弗若斯特沙利文预测，到2029年，我国AI智算GPU市场规模将达到10,333.40亿元，期间年均复合增长率为 $56.7\%$ 。此外，桌面级产品的市场规模未来也将保持稳定增长，从2020年的241.91亿元增至2024年的641.45亿元，预计2029年将进一步增至3,302.38亿元。 在中国AI智算GPU市场中，数据中心GPU产品是过去增速最快的细分市场，其市场规模从2020年的82.00亿元以70.1%的年均复合增长率，快速增长至2024年的687.2亿元，预计未来还将以年均复合增长率55.7%的高增速增长至2029年的6639.2亿元。 图表：2020-2029E中国GPU市场规模收入（单位：亿元） 图表：2020-2029E中国AI智算GPU市场规模收入（单位：亿元） # 2.2 打破英伟达垄断，国产替代释放巨大弹性 ■ GPU全球市场英伟达占据超80%份额、AMD占据20%：经过多年竞争与发展，全球GPU市场头部化现象显著，整体呈寡头垄断格局，英伟达（NVIDIA）和超威半导体（AMD）两家国外领先厂商基本分割了全球市场。据Jon Peddie Research数据，GPU市场呈现“一超一强”格局，其中英伟达一家独大，近年来持续维持超80%的市场份额，AMD则占据剩余近20%的市场份额。 ■ 美国芯片出口管制及国内政策等因素推动国产AI芯片自上而下替代，有望释放巨大弹性：近年来，受到美国高性能AI芯片出口管制与国内政策推动等因素影响，海外厂商在中国市场的份额呈明显下降趋势，国产AI芯片公司迎来黄金发展期，以不同技术路径切入市场。GPU领域，代表厂商除英伟达、AMD外，还包括国内公司海光信息、景嘉微、摩尔线程、沐曦股份、天数智芯、壁仞科技等；采用其他技术路线（ASIC）的AI芯片国内公司包括寒武纪、华为海思、昆仑芯、平头哥、燧原科技等。据Bernstein Research数据，英伟达和AMD 24年在中国AI芯片市场中分别占据66%、5%的市场份额，华为海思市占率约23%，沐曦市占率约1%。 图表：全球GPU市场格局（截至2025年12月） 图表：2024年中国AI芯片市场格局 # 2.2 自主可控趋势明确，国产算力产业链有望深度受益 ■ 本土AI算力需求高增，但供给严重滞后，供需缺口亟待解决。此前国内AI芯片需求高度依赖英伟达等海外GPU，现受美国出口管制及国内自主发展政策的影响，海外厂商采购受限，国产替代需求激增但国产厂商的供给产能和产品性能均亟待提高。据Bernstein预测，23-27年的中国AI芯片本土需求将从110亿美元激增至690亿美元，而本土供给仅从20亿美元增至390亿美元，同期供给需求比分别为 $20\%$ 、 $29\%$ 、 $40\%$ 、 $39\%$ 、 $57\%$ ，存在较大供需缺口，至28年国内AI芯片市场才实现国产供需平衡。 ■ 为加速填补缺口，国产芯片产能将迅速提高。据Bernstein预测，23-28年我国logic芯片的月产能将从3k片晶圆大幅提升至约180k片晶圆，其中AI芯片产能将从26年后显著增加，产量预计在27、28年明显爬升，并在28年实现约1500万出货量；同时，随着产能爬坡，国产AI芯片平均价格将逐渐下滑，由23年的1.2万美元降至28年的6千美元。 图表：中国AI芯片本地需求与供应（十亿美元） 图表：中国先进逻辑芯片平均产能 图表：中国AI芯片产量和平均销售价格 # 2.2 自主可控趋势明确，国产算力产业链有望深度受益 ■ 自主可控趋势明确，国产算力产业迎来强上行周期，至28年AI芯片领域国内供应商份额将达 $93\%$ ，销售额由23年的20亿美元增长至28年的820亿美元。一方面，时间维度上，国产模型比海外进度晚半年左右，模型追赶的过程同时对应了国内算力需求的强上行周期；另一方面，美国出口管制和国内政策导向推动我国本土AI芯片产业走向自主可控，国产厂商将迎来快速扩大市场份额的“黄金窗口期”。据Bernstein，我国本地供应商的AI芯片销售额从23年的20亿美元爆发式增长至25年的160亿美元，期间年均复合增速达 $52\%$ ，未来将延续高增趋势，至28年增长到820亿美元，25-28年年均复合增速 $49\%$ ；同时国产厂商份额也将迅速提升，23年本土供应商在国内AI芯片领域占比 $19\%$ ，至25年提升至 $58\%$ ，未来随着产业自主化发展，至28年份额将提高至 $93\%$ 。 图表：我国AI芯片市场全球供应商与本地供应商销售额（十亿美元） # 2.2 多批AI数据中心招标项目涌现 ■ 据Bernstein analysis统计，2025年上半年市场共涌现40余项本地人工智能数据中心招标项目，平均规模超1000万元人民币，其中规模最大的项目金额高达72亿元；预计地方政府及国有企业支持的数据中心将占据国内AI资本支出的近 $25\%$ 。 图表：2025年我国部分AI数据中心招标项目 发布日期 项目名称 投标金额（亿元人民币） 备注 1月17日 青海德令哈智能计算中心项目一期工程总承包 14.60 一期将建成400PFlops算力，建筑面积约1500平方米；将打造1个演示平台&计算机房、1个数据中心运营维护楼(面积约800平方米)；配套1座8kW-24KW的单舱、1座110kV变电站及相关配套设施 2月17日 河北人工智能计算中心一期工程总承包 32.10 包含B1办公楼的装修改造、C1楼计算中心工程的建设以及计算设施的搭建 5月1日 新疆瑞川智算中心项目EPC工程总承包（瑞川智算中心项目） 21.90 新建1栋综合服务楼(3层)、1栋AI智能楼(地下1层、地上3层)，面积4722.84平方米；1栋配套楼(1层)，面积4654.47平方米；4栋3#4#数据计算机房(地上1层，每栋建筑面积1603.7平方米)；总建筑面积15792.11平方米 5月10日 新疆双河智算科技有限公司EPC工程总承包 19.20 / 5月12日 乌苏智能计算中心建设项目1标段 12.90 3栋新建建筑（总建筑面积6910平方米），含智能计算中心、消防泵房、警卫室等；1条新建自动化生产线（配备10400个机架）；采购并安装高性能计算设备、高性能存储设备及相关配套设施 6月16日 折疆乌鲁木齐智算中心速设工程总承包（乌鲁木齐智算中心项目） 72.00 拟建设智能制造相关服务类建筑、人工智能培训基地，以及智能采购室与配套设施；智能计算中心项目计划采购大规模训练推理算力服务（算力支撑不低于2000P，其中至少30%的训练算力需配备算力报告模型，且预留不少于80%的算力扩展空间）；项目占地100亩，建筑面积38800.18平方米 # 2.3 国产与海外厂商芯片性能对比 ■ 目前国产厂商与海外龙头厂商英伟达在芯片性能上存在代际差距，国产芯片性能相对领先的厂商有华为、寒武纪和海光信息，已达到英伟达A100水平，其中华为昇腾部分芯片型号（如910C、950DT）、寒武纪思元690总处理性能已超过A100。 图表：AI芯片领域部分主流国内厂商与海外厂商产品性能对比 AI芯片类型 品牌 型号 发布时间 制程 算力 显存 互联带宽-双向(GB/s) 最大功耗(W) INT8 (TOPS) FP8(TFLOPS) FP16/BF16(TFLOPS) 容量(GB) 带宽(GB/s) GPU 英伟达 B200 2024年 4nm 4500 4500 2250 192 HBM3e 8000 1800 1000 GB200 10000 10000 5000 384 HBM3e 16000 3600 2700 B300 2025年 - 4500 2250 288 HBM3e 8000 1800 1400 GB300 - 10000 5000 576 HBM3e 16000 3600 - AMD MI350X 2025年 3nm 4600 4600 2300 288 HBM3e 8000 153 1000 MI355X 5000 5000 2500 288 HBM3e 8000 153 1400 ASIC 谷歌 TPUv6 2024年 5nm 1836 - 918 32 HBM3 1640 800 390 TPUv7 2025年 3nm 4614 4614 2307 192 HBM3e 7380 2400 980 亚马逊 Trainium2 2024年 5nm - 1264 632 96 HBM3e 2900 1280 - Trainium3 2026年 3nm 630 2517 630 144 HBM3e 4900 2560 - 微软 Maia 100 2023年 5nm 1600 - 800 64 HBM3 1600 1200 860 Meta MTIA V1 2023年 7nm 102.4 - 51.2 64 LPDDR5 176 - 25 MTIA V2 2024年 5nm 354 - 177 128 LPDDR5 204.8 - 90 GPU 摩尔 MTT S5000 2025年 - - 1024 - - - - - 沐曦 曦云C600 2025年 - - 1000 - 144 HBM3e 1600-1800 - - ASIC 寒武纪 思元590 2023年 7nm 500-560 - 250-280对标H100 - - - - 思元690 华为昇腾 910C 2025年 7nm 1600 - 800 128 3200 784 - 950PR 2026年 - - 1000 - 128 自研HBM 1600 2000 - 950DT 1000 - 144 自研HBM 4000 2000 - 图表：国内厂商与海外厂商AI芯片总处理性能（TPP）比较 Total processing performance (TPP) comparison between global and local vendors # 2.4国产厂商主流AI算力芯片参数对比 工艺指标 算力及功耗指标 显存及互联指标 厂商 名称 发布时间 制程 FP32 (TFLOPS) BF16/FP16(TFLOPS) INT8 (TOPS) 功耗(w) 能效比 (FP16) 显存类型 显存带宽(GB/s) 显存容量(GB) 互联带宽(GB/s) 寒武纪 思元590 2023 - 250-280 500-560 - - - - - - MLU370-X8 2022 7nm - 96 256 250 0.4 LPDDR5 614 48 - MLU370-X4 2021 - - - 150 0.6 307 24 200 MLU290-M5 - - 512 350 - HBM2 1228 32 600 P800 2025 - 345 - - - - - - - 昆仑芯 RG800 2021 7nm 32 128 256 130 1.0 GDDR6 512 32 - R200 150 0.9 16 - 平头哥 PPU 2025 - - - - 400 - HBM2e - <td