NVIDIA GTC 2022大幕拉起：Hopper架构H100加速卡、AI及超算处理器Grace等新品震撼登场

# 热点资讯 2022-11-05 22:41 0 63 作者：形象思维VR

　　北京时间2022年3月21日晚23：00，NVIDIA 2022年GTC大会正式开启。正如各家媒体预测的那样，官方不但发了万众瞩目的Hopper架构H100加速卡，还推出了专为AI及超算设计的CPU处理器Grace、AI计算系统“DGX H100”。

　　值得一提的是，Grace芯片拥有144个核心，内存带宽达恐怖的1TB/s，而整体功耗仅为500W。作为GPU领域的龙头企业，Nvidia表示Grace在性能方面完全碾压业内所有对手。

　　厚积薄发的Grace

　　事实上，NVIDIA早在2021年就对外宣布了Grace芯片，但其详细规格始终是个迷。今晚，官方终于宣布了它的详细规格：两个CPU芯片，一个叫做Grace Hopper，为CPU+GPU合体设计，它使用了Nvidia的最新NVLink技术连接，带宽为900GB/s。

　　与之相较，另个一名为Grace CPU Superchip的芯片则更为强大，它的规格是两个Grac CPU一起封装，总共拥有144个基于ARMv9指令集的CPU内核，缓存容量396MB，支持LPDDR5X ECC内存，带宽为1TB/s。另外，这款芯片还支持PCIe 5.0、NVLink-C2C互连。

　　在外界最关注的性能方面，Grace CPU Superchip的SPECint 2017得分为740分，暂时登上了业内最顶峰。

　　在首席执行官黄仁勋看来，在Grace Hopper及Grace CPU Superchip的加持下，NVIDIA在未来可以灵活搭配各种B端方案，就像是搭积木那样简单。

　　在宣布完规格后，老黄表示：Grace CPU Superchip芯片会在2023年上市。

　　与传闻不同，GH100核心采用的其实是台积电目前最先进的4nm工艺，而且是定制版，CoWoS 2.5D晶圆级封装，单芯片设计，集成多达800亿个晶体管，号称世界上最先进的芯片。

　　官方没有公布核心数，但已经被挖掘出来，和此前传闻一直。

　　完整版有8组GPC（图形处理器集群）、72组TPC（纹理处理器集群）、144组SM（流式多处理器单元），而每组SM有128个FP32 CUDA核心，总计1843个。

　　显存支持六颗HBM3或者HBM2e，控制器是12组512-bit，总计位宽6144-bit。

　　Tensor张量核心来到第四代，共有576个，另有60MB二级缓存。

　　扩展互连支持PCIe 5.0、NVLink第四代，后者带宽提升至900GB/s，七倍于PCIe 5.0，相比A100也多了一半。整卡对外总带宽4.9TB/s。

　　性能方面，FP64/FP32 60TFlops（每秒60万亿次），FP16 2000TFlops（每秒2000万亿次），TF32 1000TFlops（每秒1000万亿次），都三倍于A100，FP8 4000TFlops（每秒4000万亿次），六倍于A100。

　　H100计算卡采用SXM、PCIe 5.0两种形态，其中后者功耗高达史无前例的700W，相比A100多了整整300W。

　　按惯例也不是满血，GPC虽然还是8组，但只开启了66组TPC（魅族GPC屏蔽一组TPC）、132组SM，总计有16896个CUDA核心、528个Tensor核心、50MB二级缓存。

　　显存只用了五颗，最新一代HBM3，容量80GB，位宽5120-bit，带宽高达3TB/s，相比A100多了一半。

　　在拥有了强大的芯片基础后，NVIDIA也拥有了强大的算力基础，并以此推出了更加强大的AI运算系统：DGX H100。

　　据官方介绍，该系统集成了八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器（Intel Sapphire Rapids四代可扩展至器）。在规格方面，它总共有用6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

　　性能方面，DGX H100的AI算力为32PFlops（每秒3.2亿亿次），浮点算力FP64 480TFlops（每秒480万亿次），FP16 1.6PFlops（每秒1.6千万亿次），FP8 3.2PFlops（每秒3.2千亿次），分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

　　同时，它还配备Connect TX-7网络互连芯片，台积电7nm工艺，800亿个晶体管，400G GPUDirect吞吐量，400G加密加速，4.05亿/秒信息率。

　　事实上，如此强大的DGX H100还只是最小的计算单元。为了扩展其应用规模，NVIDIA本次还设计了全新的VNLink Swtich互连系统，可以连接最多32个节点，也就是256颗H100芯片，称之为“DGX POD”。

　　在这套拥有极致性能的系统内，NVIDIA为其塞入了20.5TB HBM3内存，总带宽768TB/s，AI性能高达颠覆性的1EFlops（100亿亿亿次每秒），实现百亿亿次计算。

　　据黄仁勋表示，目前DGX H100的合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。

　　另外，该系统的云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。

　　众所周知，近几年兴起的人工智能浪潮，根本原因正是计算力的快速发展，结合互联网、物联网带来的海量数据和深度学习等先进算法共同催生而成，其实际应用效果和社会影响力远远超出以往。

　　但是，随着人工智能的快速发展，更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下，如果计算力不能相应增长，整个人工智能的学习过程将变得无比漫长。可以说，人工智能对计算的需求是永无止境的。

　　正式基于以上背景，我们也就不难理解NVIDIA在这机年中快速崛起的真正秘诀：正是因为其强大的GPU有效弥补了CPU的不足，并大大加速了处理高强度计算负载的能力，从而让GPU计算的潜力得以全面的释放。

　　在本次GTC大会上，NVIDIA不但推出了强大的运算芯片，还就AI领域的发展、以及该技术在科研、数字孪生、自动驾驶乃至金融等行业的深度应用作出了前瞻。

　　在我们看来，NVIDIA一系列围绕人工智能领域的布局和创新，不仅是大势所趋，更是这家芯片业巨头在新时代的新使命。可以说，AI赋予了NVIDIA未来更大的想象力，而NVIDIA也正引领人工智能走向更大的舞台。