一直听到h100,h20,A100,H800这些芯片,没有去查下到底是什么区别,今天查了下。
核心芯片对比
1. H100(Hopper架构)
定位:全球旗舰AI芯片,面向高性能计算(HPC)和超大规模AI训练。
架构:Hopper架构,支持第四代Tensor Core和Transformer Engine优化。
参数:
CUDA核心:14,592个
显存:80GB HBM2e(带宽3.35TB/s)或144GB HBM3E(带宽8.0TB/s)
FP16算力:1,979 TFLOPS(稀疏计算模式下)
优势:
支持900GB/s NVLink互联,多卡并行效率高。
专为LLM(如GPT-4)优化,训练速度比A100快6-9倍。
限制:受美国出口管制,无法直接在中国市场销售。
2. H800(Hopper架构,中国特供版)
定位:H100的合规替代方案,针对中国市场定制。
架构:与H100相同,但硬件规格受限。
参数:
CUDA核心:14,592个
显存:80GB HBM2e(带宽2.04TB/s,低于H100的3.35TB/s)
FP16算力:受限,具体未公开。
差异点:
NVLink带宽限制为400GB/s(H100为900GB/s)。
集群算力上限4万P,仅为H100的40%。
用途:大规模AI训练,如云计算厂商的分布式任务。
3. H20(Hopper架构,中国特供版)
定位:H800的继任者,专为合规市场需求设计。
架构:Hopper架构,但核心数量大幅缩减。
参数:
CUDA核心:78组SM(比H100减少41%)
显存:96GB HBM3(带宽4.0TB/s,低于H100的8.0TB/s)
FP16算力:296 TFLOPS(稀疏计算模式下,仅为H100的15%)
特点:
在LLM推理场景中表现突出,单卡可运行70B参数模型(H100需双卡)。
功耗400W,低于H100的700W。
争议:千亿参数模型训练时需超大规模集群,成本效益较低。
4. A100/A800(Ampere架构)
定位:上一代数据中心主力芯片。
架构:Ampere架构,第三代Tensor Core。
差异:
A100:支持600GB/s NVLink,显存带宽2.04TB/s。
A800:NVLink带宽降至400GB/s,其他参数与A100一致。
用途:适合中等规模AI训练和推理,成本低于Hopper系列。
核心芯片对比
1. H100(Hopper架构)
定位:全球旗舰AI芯片,面向高性能计算(HPC)和超大规模AI训练。
架构:Hopper架构,支持第四代Tensor Core和Transformer Engine优化。
参数:
CUDA核心:14,592个
显存:80GB HBM2e(带宽3.35TB/s)或144GB HBM3E(带宽8.0TB/s)
FP16算力:1,979 TFLOPS(稀疏计算模式下)
优势:
支持900GB/s NVLink互联,多卡并行效率高。
专为LLM(如GPT-4)优化,训练速度比A100快6-9倍。
限制:受美国出口管制,无法直接在中国市场销售。
2. H800(Hopper架构,中国特供版)
定位:H100的合规替代方案,针对中国市场定制。
架构:与H100相同,但硬件规格受限。
参数:
CUDA核心:14,592个
显存:80GB HBM2e(带宽2.04TB/s,低于H100的3.35TB/s)
FP16算力:受限,具体未公开。
差异点:
NVLink带宽限制为400GB/s(H100为900GB/s)。
集群算力上限4万P,仅为H100的40%。
用途:大规模AI训练,如云计算厂商的分布式任务。
3. H20(Hopper架构,中国特供版)
定位:H800的继任者,专为合规市场需求设计。
架构:Hopper架构,但核心数量大幅缩减。
参数:
CUDA核心:78组SM(比H100减少41%)
显存:96GB HBM3(带宽4.0TB/s,低于H100的8.0TB/s)
FP16算力:296 TFLOPS(稀疏计算模式下,仅为H100的15%)
特点:
在LLM推理场景中表现突出,单卡可运行70B参数模型(H100需双卡)。
功耗400W,低于H100的700W。
争议:千亿参数模型训练时需超大规模集群,成本效益较低。
4. A100/A800(Ampere架构)
定位:上一代数据中心主力芯片。
架构:Ampere架构,第三代Tensor Core。
差异:
A100:支持600GB/s NVLink,显存带宽2.04TB/s。
A800:NVLink带宽降至400GB/s,其他参数与A100一致。
用途:适合中等规模AI训练和推理,成本低于Hopper系列。