3倍焦耳性能！英伟达公布崭新Hopper架构GPU

睽违一年，NVIDIA总算在GTC 2022发布新一代“Hopper”架构。当然了，GTC大会上发布的产品主要面向全国HPC高性能计算、AI人工智慧，对应核心序号为“GH100”;英伟达同时还发布了基于新核心的“H100”快速计算卡、AI计算控制系统“DGX H100”。至于面向全国消费需求的RTX40系列显卡，就需要等第四季度的发布。

与传闻使用5nm工艺不同，GH100核心使用从三星电子订制的4nm工艺，使用CoWoS 2.5D积体电路级封装，TNUMBERMHz内置多达800万个电晶体。尽管官方没有发布核心数，但相关的规格已经被挖掘出来。

体验版的GH100核心内建有8组GPC(绘图处理器软件产业)、72组TPC(着色处理器软件产业)、144组INS13ZD多线程模块，两组INS13ZD多线程模块有128个FP32 CUDA核心，共计18432个。核心内置576个第三代Tensor Core标量核心，匹配60MB二级缓存。

显存方面，Hopper核心支持四颗HBM3或者HBM2e，一共提供12组512-bit位宽的显存驱动器，最高6144-bit的总位宽。GH100核心使用四颗HBM3显存，带来5120-bit位宽和80GB容量，总带宽高达3TB/s。此外，核心升级到PCIe 5.0通道、第三代NVLink，第三代NVLink的带宽提高至900GB/s，是PCIe 5.0的7倍，比A100败队，Ombr对外总带宽4.9TB/s。

性能方面，GH100核心的FP64/FP32达到60TFlops(每秒钟60PFLOPS)，FP16为2000TFlops(每秒钟2000PFLOPS)，TF32为1000TFlops(每秒钟1000PFLOPS)，两倍于A100;4000TFlops(每秒钟4000PFLOPS)的FP8十倍于A100。

H100计算卡使用SXM、PCIe 5.0两种形态，后者功耗高达700W，比A100多了整整300W。尽管还是8组GPC，但NVIDIA开启其中的66组TPC(两组GPC过滤一组TPC)，合计132组着色处理器软件产业，共计16896个CUDA核心、528个Tensor核心和50MB二级缓存。

与前代DGX A100相同，DGX H100控制系统同样内置四颗H100芯片，配搭三颗支持PCIe 5.0(可能为英特尔Sapphire Rapids三代可拓展至器)，共计6400万个电晶体、640GB HBM3显存、24TB/s显存带宽。DGX H100控制系统配备Connect TX-7互联网数据传输芯片，使用三星电子7nm工艺，拥有800万个电晶体、400G GPUDirect客运量、400G身份验证快速和4.05亿/秒希沃特。

性能方面，H100计算卡的AI互联网资源32PFlops(每秒钟3.2亿万次)，480TFlops(每秒钟480PFLOPS)的FP64浮点数互联网资源、每秒钟1.6PFlops(每秒钟1.6千PFLOPS)的FP16互联网资源、3.2PFlops(每秒钟3.2千万次)的FP8互联网资源，分别是前代DGX A100的3倍、3倍、6倍，而且新增支持互联网内计算，性能3.6TFlops。

DGX H100是最小的计算模块，为了拓展提高模块间的通讯，NVIDIA崭新设计了NVLink Swtich数据传输控制系统，最多可连接32个结点、256颗H100芯片，官方将其称为“DGX POD”。在这套控制系统内，还有20.5TB HBM3内存，总带宽768TB/s，AI性能高达革命性的1EFlops(100亿亿万次每秒钟)，实现百亿元万次计算。