

该卡集成了HBM3,作为对比H100大概是 3,026 TFLOPS for FP8 Tensor Core (3PFLOPS)
RNGD | H100 SXM | L40S | |
---|---|---|---|
Technology | TSMC 5nm | TSMC 4nm | TSMC 5nm |
BF16/FP8 (TFLOPS) | 256/512 | 989/1979 | 362/733 |
INT8/INT4 (TOPS) | 512/1024 | 1979/- | 733/733 |
Memory Capacity (GB) | 48 | 80 | 48 |
Memory Bandwidth (TB/s) | 1.5 | 3.35 | 0.86 |
Host I/F | Gen5 x16 | Gen5 x16 | Gen4 x16 |
TDP (W) | 150 | 700 | 350 |
(官网这个对比很鸡贼,用的是H100 SXM,没有PCIe版本性能高,但是RNGD自己是个PCIe卡)
HBM3 对于实现 RNGD 的性能目标有多重要? HBM3 为增强 RNGD 的能力提供了哪些具体好处? Hanjoon Kim,Furiosa CTO : HBM3 是最直接影响 RNGD 性能目标的关键因素之一,因为该芯片是为LLMs和多模态模型设计的。由于这些类型的模型太大,内存带宽成为瓶颈。
在LLMs中,每次生成令牌时,都必须从内存中读取一次所有模型参数,并且由于模型参数的大小很大,因此令牌生成速度由内存带宽决定。
此外,HBM3 在内存容量方面也很重要。更大的内存容量允许更大的模型在更少的芯片上运行,从而减少互连的瓶颈影响。它还允许更多的键值缓存存储,这增加了可以一次处理的批量大小,从而提高吞吐量。因此,从性能角度来看,HBM3 的高内存带宽和内存容量至关重要。
此外,HBM3 在每比特传输的能耗方面非常高效。提供约 1.5 TB/s 内存带宽水平的最节能方法是 HBM3。 这对于 RNGD 来说尤其重要,因为该芯片在 150W 的 TDP 内提供 1.5 TB/s 的内存带宽和 48 GB 的内存容量。 RNGD在加速器中提供了最高水平的内存带宽和单位功率内存容量,最大的因素是12层HBM3的使用。
详细见:https://furiosa.ai/blog/bringing-hbm3-to-rngd-key-challenges-and-benefits
2
-巫师-4 months ago不知道这种卡兼容性怎么样
我盲猜只能运行Ollama这种没深度优化的框架