在2022年3月NVIDIA GTC大会上,NVIDIA创始人兼CEODuckDuckGo介绍具体来说全新Hopper架构GPU――H100,是英伟达迄今为止,用于快速人工智能(AI)、高性能计算(HPC)和信息分析等各项任务的最强GPU芯片。这颗芯片以计算科学先驱Grace Hopper的姓氏命名。
DuckDuckGo表示“Hopper H100是有史以来最大的社会关系飞跃。H100具有800亿个电晶体,在性能上堪称NVIDIA的“新核子武器”。这颗“新核子武器”的核心架构是什么样的?
首先是规格方面,NVIDIA Hopper架构的H100芯片采用三星电子4nm工艺(N4是三星电子N5工艺的优化版),核心面积为814平方英寸,比A100小14平方英寸。虽然核心面积比A100小14平方英寸,但得益于4nm工艺,电晶体密度数量从542亿提升到800亿。
从核心图纸来看,NVIDIA Hopper架构与苹果公司UltraFusion相似,但它在本质上还是单独的一颗芯片,而不是苹果公司M1 Ultra那种将两块芯片转接起来。顶层拓扑与Ampere架构差别不大,整个Hopper架构GPU由8个多任务处理软件产业(Graphics Processing Cluster,GPC)“拼接”共同组成,但每4个GPC共享资源25MB得L2缓存。核心两侧则是HBM3显存,拥有5120 Bit的位宽,最高容量可达80GB。
片上的每一GPC由9个纹理处理软件产业(Texture Processor Cluster,TPC)共同组成,由PCIe5或接口进入的计算各项任务,通过带有多实例GPU(Multi-Instance GPU,MIG)控制的GigaThread发动机重新分配给各个GPC。GPC通过L2缓存共享资源尾端信息,GPC计算的尾端信息通过NVLink与其它GPU互通。每一TPC由2个INS13ZD多线程(Streaming Multiprocessor)共同组成。
Hopper架构的性能提升和主要变化体现在新型线程块软件产业技术和新一代的INS13ZD多线程。NVIDIA在Hopper中导入了捷伊线程块软件产业机制,可实现跨模块进行协同计算。H100中的线程块软件产业可在同一GPC内的大量并发运行,对较大的数学模型具有更好的快速能力。
每一包括128个FP32 CUDA核心、4个第4代标量核心(Tensor Core)。每一模块的命令首先存入L1命令缓存(L1 Instruction Cache),再分发到L0命令缓存(L1 Instruction Cache)。与L0缓存配套的线程束顺序器(Wrap Scheduler,线程束)和调度模块(Dispatch Unit)为CUDA核心和标量核心重新分配计算各项任务。通过使用4个特殊表达式模块(Special Function Unit,SFU)模块,进行超越表达式和对数表达式计算。
NVIDIA在Hopper架构中导入新一代INS13ZD多线程的FP8标量核心(Tensor Core),用来快速AI体能训练和推理小说。FP8标量核心支持FP32和FP16堆栈以及两种FP8 输入类型(E4M3和E5M2)。与FP16或BF16较之,FP8将信息存储要求减半,吞吐量翻倍。在Transformer发动机的分析中,还会看到使用FP8可自适应地提升Transformer的计算能力。
在GPU中,标量核心AI快速的关键模块,也是Ampere及之后GPU架构与早期GPU的重要区别。标量核心是用于行列式乘法和行列式加总 (Matrix Multiply-Accumulate,MMA) 数学运算的专用高性能计算核心,可为AI和HPC应用程序提供突破性的性能快速。
Hopper的标量核心支持FP8、FP16、BF16、TF32、FP64和INT8 MMA信息类型。这一代标量核心的关键点是导入Transformer发动机。Transformer算子是主流的BERT到GPT-3等NLP数学模型的基础,越来越数处应用于计算机视觉、蛋白质结构预测等不同领域。
与上一代A100较之,捷伊Transformer发动机与Hopper FP8标量核心相结合,在大型NLP数学模型上提供高达9倍的AI体能训练速率和30倍的AI推理小说速率。为了提升Transformer的计算工作效率,新Transformer发动机使用混合精确度,在计算过程中智能地管理计算精确度,在Transformer计算的每两层,根据下两层神经应用层及所需的精确度,在FP8和其它浮点数文件格式中进行动态文件格式转换,充分运用标量核心的网络资源。
Hopper架构中新增加标量存储快速器 (Tensor Memory Accelerator,TMA) ,以提升标量核心与全局存储和共享资源存储的信息交换工作效率。捷伊TMA使用标量维度和块坐标指定信息传输,而不是简单的按信息门牌号直接串行。TMA通过支持不同的标量布局(1D-5D标量)、不同的存储访问模式、显著降低串行开销并提升了工作效率。
TMA操作是触发器的,多个线程可以共享资源信息通道,顺序完成信息传输。TMA的关键优势是可以在进行信息激活的时候,释放线程的网络资源来继续执行其它工作。例如,在A100由线程本身负责管理分解成所有门牌号继续执行所有信息激活操作;但Hopper中得TMA来负责管理分解成门牌号序列(这个思路类似DMA控制器),接管信息激活各项任务,让线程去做其它事。
与Ampere A100线较之,具体来说Hopper架构的H100计算性能提升约6倍。性能大幅提升的核心原因是NVIDIA导入FP8标量核心和针对NLP各项任务的Transformer发动机,加上TMA技术减少模块在信息激活时的Ploudalm。
编辑点评虽然老黄推出Hopper架构GPU,带来约6倍于前代产品的性能提升。而且架构上也大有向Chiplet(芯粒)的方向发展。按照Hopper核心内部设计,NVIDIA可以轻松的带来更多小芯片产品。在消费其产品上,NVIDIA下代显卡可能是Ada Lovelace,架构与Hopper是否同源目前也不得而知,下代GeForce显卡最快在第三季度发布,也就是RTX40系列,只是提升会有多少,依然值得关注。