> **来源:[研报客](https://pc.yanbaoke.cn)** # 详细总结:AI Coding for the GPU ## 核心内容 本文档介绍了NVIDIA在AI开发工具领域的新进展,特别是围绕**CUDA Intelligence Ecosystem**的构建,旨在通过AI技术提升GPU开发者的效率和代码质量。文档强调了通过**Agentic Coding**和**ComputeEval**等工具,帮助开发者编写高性能的CUDA代码,同时通过评估和反馈机制优化开发流程。 ## 主要观点 - **AI Coding for the GPU** 是一种新的开发范式,旨在通过AI代理(Coding Agents)帮助GPU开发者编写“Speed of Light Code”(即极致性能的代码)。 - **CUDA Intelligence Ecosystem** 是一个全面的AI开发工具集,包括Nsight Tools、IDE、Compute、Systems Key Evaluation Services、FOSS Blueprints及参考实现。 - **Nsight Copilot** 是集成在Nsight Compute中的AI助手,能够指导性能调优,聚焦于性能分析目标,并最终实现优化。 - **ComputeEval** 是一个用于评估CUDA代码性能的系统,通过生成具有代表性的工作负载,帮助开发者衡量代码的正确性和性能。 - **SKILLS** 和 **TRACES** 是CUDA Intelligence Ecosystem中的关键组件,SKILLS用于构建代码技能,TRACES用于记录开发轨迹并进行评估。 - **Agentic Coding** 通过强化学习(RL)平衡速度与内存压力,同时考虑令牌成本、时间成本和可维护性。 - **Nsight CUDA Intelligence** 通过结合RAG(Retrieval-Augmented Generation)和ComputeEval,提供更智能的代码生成和优化建议。 - **Trace.md** 是一个用于总结开发轨迹的文件,包括从初始设计到运行时的全过程,以及评估结果。 - **Net New Knowledge (NNK)** 是通过测试驱动开发(TDD)方法生成的新知识,用于设定CUDA开发的新基准。 - **CUDA Agentic Engineering** 代表了未来GPU开发的趋势,通过AI代理实现自动化的代码生成和优化,减少对传统CUDA工程师的依赖。 - **The Long Tail of Innovation** 指出NVIDIA具备足够的灵活性以支持未来的创新,如Transformer和扩散模型等。 ## 关键信息 ### 工具与技术 - **Nsight Copilot**:集成在Nsight Compute中,支持VS Code和Cursor等IDE,提供代码指导和性能调优建议。 - **ComputeEval**:通过生成代表性的工作负载,评估CUDA代码的性能和正确性。 - **SKILLS**:用于构建代码技能的框架,结合领域知识和专家经验。 - **TRACES**:记录开发轨迹,用于评估和优化代码。 - **RAG(Retrieval-Augmented Generation)**:用于增强代码生成的上下文理解,提高生成代码的质量。 ### 评估与优化 - **Filter Noise and Verify with Evals**:通过评估机制过滤噪声,识别关键性能瓶颈。 - **Test-Time RL vs. Train-Time RL**:通过强化学习在测试和训练阶段优化代码性能。 - **Wall Clock is a proxy**:通过评估指标(如令牌/瓦特、令牌/MIP)替代实际运行时间。 - **SOLExecBench**:一个用于评估GPU内核性能的基准测试工具,与FlashAttention-4进行对比。 ### 未来展望 - **2026-2028**:NVIDIA计划逐步引入AI代理,实现从代码生成到自动开发的全过程。 - **Bespoke Automatic Development**:通过AI代理实现定制化的自动开发流程,覆盖整个软件开发生命周期(SDLC)。 - **Net New Knowledge (NNK)**:通过测试驱动开发(TDD)方法生成新知识,提升CUDA开发的效率和质量。 ### 开发者资源 - **GTC Sessions**: - S81590: Lowering the Barriers: How New Tools Unlock GPU Acceleration for Everyone - S81831: AI Coding for the GPU: Building a Coding Agent to Help GPU developers write Speed of Light Code - S81653: LLM-Generated CUDA Kernels: Are We There Yet? - S81772: Don't leave Tensors on the Table: Programming and Optimizing Tensor Cores - **GTC Labs**: - DLIT81545: Profiling Python and AI workloads with Nsight Compute - DLIT81641: Find the Bottleneck - Optimize AI pipelines with Nsight Systems - DLIT81579: Optimizing PyTorch models for high-performance inference with Nsight Deep Learning Designer - **Connect with the Experts**: - CWES81549: What's in Your Developer Toolbox? CUDA, AI, and Graphics Profiling, Optimization, and Debugging Tools - CWES81535: CUDA Developer Best Practices - CWES81771: How to Run and Optimize Your Workloads on the NVIDIA Grace and Vera CPUs - **Live Demos**:开发者可在NVIDIA展位参加现场演示,了解如何使用最新的开发者工具。 ## 总结 NVIDIA正在通过构建**CUDA Intelligence Ecosystem**,将AI技术深度集成到GPU开发流程中,以提高代码质量和性能。通过**Nsight Copilot**、**ComputeEval**、**SKILLS** 和 **TRACES** 等工具,开发者可以更高效地进行代码生成、性能评估和优化。未来,NVIDIA计划实现从代码生成到自动开发的全过程,使开发者能够专注于问题领域,而不是底层实现细节。这些工具和方法不仅适用于当前的CUDA开发,也为未来的创新提供了支持。