
摩尔线程和硅基流动联合发布MTT S5000跑 DeepSeek-V3, 单卡 decode 干到了1000tps这个新闻, 引起了我的注意, 我们简单算下:
DeepSeek-V3 激活参数量 37B, FP8 精度直接算作 37GB 大小, 1000 tps 意味着单卡理论上需要 37TB/s 的显存带宽. 这显然是不可能的, 老黄的H200也才单卡4.8TB/s.
但是嗷, 但是来了, 大模型其实可以并行推理, 即开大 BatchSize, 实现一次模型权重从VRAM加载到GPU SRAM并行计算. 那么假设 BatchSize 是 128, 那么每个用户得到的 tps 速度均摊下来就是 1000 / 128 = 7.8125 token/s 显然是不行的, 这个速度用户会骂娘, 所以理想的 BatchSize 可能会是 16, 即 1000/16= 62.5 tps, 每秒给用户吐62.5个token. 或者 32, 对应是 31.25 tps, 这个合理多了.
那么我们就可以通过 tps 数据反推显存理论带宽了, 即: 37GB * 62.5 tps = 2.3TB/s 或者 37GB * 31.25 tps = 1.15TB/s.
考虑到之前MTT S4000 单卡 GDDR6 768GB/s 的性能(下限). 目前使用 vLLM 推理引擎在H200单卡上实现的最大 decode 速度是 2.2k tokens/s, 那么MTT S5000 显存带宽理论上不会超过 4.8TB/s / 2.2 = 2.18 TB/s < 2.3TB/s (上限).
所以这个 1000 tps 的 decode 速度, 大概率是 batchSize = 32 跑出来的. 对应是 31.25 tps. 即显存带宽是 1.15TB/s.
考虑到带宽实际上会有损失, 所以大概率是单卡贴了16片单片4GB的GDDR6颗粒, 总计384bit位宽, 单卡显存大小64GB. 为什么不是GDDR6x? 因为单片4GB的 GDDR6x 没有量产. 而贴16片2GB的GDDR6x单卡才32GB显存性价比太低了. (直接从原本的16卡增长到32卡, 之前 MTT S4000跑DeepSeek FP8精度就是双机MCCX D800总计16卡的方案)
那是不是就是:
16颗GDDR6显存 x 32bit单片位宽 × 24Gbps 带宽 / 8 = 1.536 TB/s. 即, 与上一代MTT S4000相比, 显存上只是换了高带宽颗粒并且多焊了4个.
嗯, 下课.
(GPU性能应该页有提升, 但无数据支撑故不做猜测. 纯瞎猜, 不构成任何投资建议, 我也期待官方放出详细参数, 如果是HBM2e打我脸那就太好了, 支持国产显卡!)

