中国·澳门新葡萄新京威尼斯(987-官方网站)-Ultra Platform

/ EN
13922884048

资讯中心

information centre
/
/

​英伟达AI芯片A100 A800 H100 H800 B200,不要再傻傻分不清!

发布时间:2024-06-20作者来源:澳门新葡萄新京威尼斯987浏览:4775

今年3月份,英伟达发布了Blackwell B200,号称全球最强的 AI 芯片。它与之前的A100、A800、H100、H800有怎样的不同?

图片


1.英伟达GPU架构演进史

我们先回顾一下,历代英伟达AI加速卡的算力发展史:

[敏感词]代AI加速卡叫Volta ,是英伟达[敏感词]次为AI运算专门设计的张量运算(Tensor Core)架构。

第二代张量计算架构叫图灵(Turing),代表显卡T4。

第三代张量运算架构安培(Ampere),终于来到我们比较熟悉的A100系列显卡了。

在芯片工艺升级的加持下,单卡SM翻倍到了108个,SM内的核心数和V100相同,但是通过计算单元电路升级,核心每一个周期可以完成256个浮点数乘累加,是老架构的两倍。加入了更符合当时深度学习需要的8位浮点(FP8)运算模式,一个16位浮点核心可以当作2个8位浮点核心计算,算力再翻倍。主频稍有下降,为1.41GHz。因此最后,A100显卡的算力达到了V100的近5倍,为108*8*256*1.41GHz*2 =624 TFLOPS (FP8)。

图片

Ampere 架构

第四代架构Hopper,也就是英伟达去年刚发布、OpenAI大语言模型训练已经采用、且因算力问题被禁运的H100系列显卡。

该显卡的SM数(132个)相较前代并未大幅提升,但是因为全新的Tensor Core架构和异步内存设计,单个SM核心一个周期可以完成的FP16乘累加数再翻一倍,达到512次。主频稍微提高到1.83GHz,最终单卡算力达成惊人的1978 Tera FLOPS(FP8),也即首次来到了PFLOPS(1.97 Peta FLOPS)领域。

图片

Hopper 架构

第五代架构Blackwell,在这个算力天梯上又取得了什么样的进展呢?根据公开的数据,如果采用全新的FP4数据单元,GB200在将能在推理任务中达到20 Peta FLOPS算力。将其还原回FP8,应该也有惊人的10 PFLOPS,这相对H100提升将达到5倍左右。

公开数据显示,Blackwell的处理器主频为2.1GHz。假设架构没有大幅更新,这意味着Blackwell将有600个SM,是H100的接近4倍。Blackwell有两个Die,那么单Die显卡的SM数也达到了H100的2倍。

可以说,每一代架构的升级,单个GPU算力实现数倍增长。这里,我们将从Volta架构至今的算力天梯进展图列表如下,方便大家查阅:

图片


2. A100 VS A800,H100 VS H800

为什么有A100还要A800呢?先说说背景

2022年10月,美国出台了对华半导体出口限制新规,其中就包括了对于高性能计算芯片对中国大陆的出口限制。并且以NVIDIA的A100芯片的性能指标作为限制标准;即同时满足以下两个条件的即为受管制的高性能计算芯片:

(1)芯片的I/O带宽传输速率大于或等于600 Gbyte/s;

(2)“数字处理单元 原始计算单元”每次操作的比特长度乘以TOPS 计算出的的算力之和大于或等于4800TOPS。

这也使得NVIDIA A100/H100系列、AMD MI200/300系列AI芯片无法对华出口。

图片


为了在遵守美国限制规则的前提下,同时满足中国客户的需求,英伟达推出A100的替代产品A800。从官方公布的参数来看,A800主要是将NVLink的传输速率由A100的600GB/s降至了400GB/s,其他参数与A100基本一致。

2023年,英伟达发布了新一代基于4nm工艺,拥有800亿个晶体管、18432个核心的H100 GPU。同样,NVIDIA也推出了针对中国市场的特供版H800。

图片


实际上,A800在互联带宽,即 N 维链和链路部分做了调整,从 A100的600G/s 降到了400G/s。但是在其他方面,如双精、单精、半精等在 AI 算力方面并没有变化。

相对而言,H800则做了较大的调整。它不仅在链路方面进行了调整,保持了 8条的 NVlink,双向互联带宽仍为400G,并且对双精度算力进行了几乎归零的处理。这对 HPC 领域来说非常关键,因为 FP64的双精度算力直接减少到了一,也就是说几乎不让你使用了。

接下来,我们来看一下阉割后对哪些业务有很大的影响。

大模型战场: A800阉割后降低了大模型的训练的效率, A800 SXMM 主要是 GPU 卡之间的数据传输效率降低,带宽降低 33%。以 GPT-3 为例, 规模达到 1750 亿, 需要多张 GPU 组合训练, 如果带宽不足则使性能下降约 4 成 (出现 GPU 算力高需要等待数据的情况), 考虑到 A 800 和 H 800 性价比, 国内用户还是倾向于 A 800。由于阉割后的 A800和 H800在训练效率上有所下降,因为他们需要在卡之间交互训练过程中的一些数据,所以他们的传输速率的降低导致了他们的效率的降低。

HPC 领域: A800 和 A100 在双精方面算力一致, 所以在高性能科学计算领域没有影响, 但是可恶的是 H800 直接将双精算力直接降到了 1 TFLOPS, 直接不让用了;这对超算领域的影响还是很大的。

所以影响是显而易见的,在 AIGC 、HPC 领域中,国内的一些企业可能会被国外的企业拉开一定的差距。这是可预见到的,所以说在一些情况下,如果我们要计算能力要达到一定的性能,它的投入可能会更高。此外,我们只能从国外借壳,通过成立分公司的方式,把大模型训练的任务放在国外,我们只是把训练好的成果放在国内去用就可以了。但是,这只是一种临时性的方案,特别是面临数据出境风险。


3.后话

众所周知,目前美国对中国的芯片限制越来越严格,在GPU上面也是如此。

2022年美国禁掉了高性能GPU芯片,包括A100、H100等,而2023年又禁掉了A800、H800、L40、L40S,甚至连桌面端显卡RTX 4090都禁了。

因此,国内科技企业也积极调整产业策略,为未来减少使用英伟达芯片做准备,从而避免不断调整技术以适应新芯片的巨大代价。阿里和腾讯等云厂商将一些先进的半导体订单转移给华为等本土公司,并更多地依赖其内部开发的芯片,百度和字节跳动等企业也采取了类似措施。显然,国内企业选择“英伟达+自研+国产芯片”三管齐下进行探路。

免责声明:本文采摘自网络,本文仅代表作者个人观点,不代表澳门新葡萄新京威尼斯987及行业观点,只为转载与分享,支持保护知识产权,转载请注明原出处及作者,如有侵权请联系我们删除。

服务热线

0755-83044319

霍尔元件咨询

肖特基二极管咨询

TVS/ESD咨询

获取产品资料

客服微信

微信服务号