社区爆料数据大概是 24GB GDDR7 显存, 如果参考 5080 的 256bit GDDR7, 显存能达到 960 GB/s 的带宽. 这样计算 4 卡机器运行 Qwen3-32B-4bit 量化理论值能跑到 240 token/s. 上推测性解码能轻松 300 token/s

另外爆料还说价格会在 750USD-800USD 左右, 那这样计算 4 卡 96GB 来到了 3200USD 左右, 可以说是最佳新一代 4 卡推理机了.

3
message-square
0