该卡集成了HBM3,作为对比H100大概是 3,026 TFLOPS for FP8 Tensor Core (3PFLOPS)

RNGD H100 SXM L40S
Technology TSMC 5nm TSMC 4nm TSMC 5nm
BF16/FP8 (TFLOPS) 256/512 989/1979 362/733
INT8/INT4 (TOPS) 512/1024 1979/- 733/733
Memory Capacity (GB) 48 80 48
Memory Bandwidth (TB/s) 1.5 3.35 0.86
Host I/F Gen5 x16 Gen5 x16 Gen4 x16
TDP (W) 150 700 350

(官网这个对比很鸡贼,用的是H100 SXM,没有PCIe版本性能高,但是RNGD自己是个PCIe卡)

HBM3 对于实现 RNGD 的性能目标有多重要? HBM3 为增强 RNGD 的能力提供了哪些具体好处? Hanjoon Kim,Furiosa CTO : HBM3 是最直接影响 RNGD 性能目标的关键因素之一,因为该芯片是为LLMs和多模态模型设计的。由于这些类型的模型太大,内存带宽成为瓶颈。

在LLMs中,每次生成令牌时,都必须从内存中读取一次所有模型参数,并且由于模型参数的大小很大,因此令牌生成速度由内存带宽决定。

此外,HBM3 在内存容量方面也很重要。更大的内存容量允许更大的模型在更少的芯片上运行,从而减少互连的瓶颈影响。它还允许更多的键值缓存存储,这增加了可以一次处理的批量大小,从而提高吞吐量。因此,从性能角度来看,HBM3 的高内存带宽和内存容量至关重要。

此外,HBM3 在每比特传输的能耗方面非常高效。提供约 1.5 TB/s 内存带宽水平的最节能方法是 HBM3。 这对于 RNGD 来说尤其重要,因为该芯片在 150W 的 TDP 内提供 1.5 TB/s 的内存带宽和 48 GB 的内存容量。 RNGD在加速器中提供了最高水平的内存带宽和单位功率内存容量,最大的因素是12层HBM3的使用。

详细见:https://furiosa.ai/blog/bringing-hbm3-to-rngd-key-challenges-and-benefits

4
message-square
2
  • -巫师-
    4 months ago

    不知道这种卡兼容性怎么样

    • karminski-牙医OPMA
      4 months ago

      我盲猜只能运行Ollama这种没深度优化的框架