刚刚将 GeForce RTX 50 系列数据增加到了大模型显卡天梯,这代的显存带宽增加显著,基本可以做到数量减半即可获得上代性能或者同样卡数性能翻倍。
最推荐的大概是双卡 5090 32GB,理论值能达到大概 75 token/s,如果 5090 买不到,那么 4卡 5080 16G 甚至能到 85 token/s, 或者 4 卡5070Ti 可以达到 跟双卡 5090一样的 75 token/s.
最拉跨应该是 4 卡 5070,只有 56 token/s, 建议至少要 4卡 5070 Ti. 当然上面的所有配置都可以特别流畅的运行 70b-4bit 规模的任意大模型了。
(需要注意的是,目前只是推测数值,实际数值以显卡真实发售为准)

2
cb_discovery3 months ago这么看,2080ti 22g的含金量还在上升
据说有4090魔改48G了,毕竟能原生FP8还是很屌的