【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

Anthony-Hoo · 2 months ago

【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

lobogaga · 2 months ago

请问一下，大佬您用的什么散热方案？
我25年上半年也置办了一套，上了个X99-E WS的板子，用的普通机箱，海雀带的风扇和2080Ti散热器我都试过了，在散热和噪音之间始终没办法取得很好的平衡，又没有隔音的置物间，现在已经闲置快半年了 😅

Anthony-Hoo · 2 months ago

我一开始用的这个模型配的4CM磁浮暴力扇+调速器减速，1M噪音48dB的风力可以压住4卡满载150w烤机。

后面发现实际上跑vLLM TP的时候功率不高，32并发推理时平均单卡才60w不到，我就直接把整个机箱结构竖着放在空气净化器出风口了，静音高效还不用清灰 ☝️ 🤓

lobogaga · 2 months ago

😮
我以为这个4CM的扇会比较暴力，所以没试。。。
我试了这个模型(1)和这个模型(2)，模型(1)我搭配了追风者T30，模型(2)用的海雀搭的风扇，全速都压不住。。。（貧弱！貧弱ぅ！）
另外还买了个首席玩家4000转，全速的时候声音已经人在机场，直接放弃了。。。
我测试的场景是vLLM跑Qwen2.5-Coder-32B，–max-model-len好像配置的是32768？另一边用Roo Code连跑一个小时生成代码，测试的时候已经是夏天，GPU满载就撞墙86度了 😇

Anthony-Hoo · 2 months ago

你发的模型1我也用过，当时试了下12038风扇得拉到5600RPM才能压住4卡满载不降频，真的直接起飞了。

另外，Qwen2.5-Coder-32B是 dense 模型，之前Qwen3还没发布的时候我跑过一阵子Qwen2.5-32B和Qwen2.5VL-32B。现在对比下来，发现确实，4卡TP的时候 dense模型比现在主流的moe模型要发热更多。我猜可能moe引入了一些性能开销导致卡实际上吃不满？

btw这4卡跑Qwen3-30B-A3B-2507 W4A16的工况，–max-model-len可以开满256K，这个时候单并发生成速度有76tokens/s ，体感非常快。但是感觉这个模型在上下文超过100K的时候召回就很不可用了，而且30B模型的能力确实不太行，后面还是换了Qwen3-Next-80B，配81920 tokens的上下文。

lobogaga · 2 months ago

感谢大佬分享，我觉得我又行了，回家给机箱吹吹灰，再试一下 😘

nicko_gong · 1 month ago

有两块，这卡只有放机架式里才是最不折腾的。一开始跑模型，现在放r720里直通打游戏中…

karminski-牙医 · 2 months ago

好帖👍, 其实不训练光推理用x1的PCIe 4.0 足够了. 另外单槽卡是真的爽啊, 现在的垃圾游戏卡动不动要吃掉3槽绝了…

Anthony-Hoo · 2 months ago

是啊，不仅3槽起步，还超长+越肩小机箱爱好者苦不堪言了

黄焖鸡烤串 · 1 month ago

pg150更换散热器（换为尾部供电的2080ti涡扇散热器）后可以暴露出来nvlink接口，据说是可以使用nvlink的~~疑似NV官方觉得pg150太菜了没从芯片层面屏蔽而是直接用单槽散热器物理屏蔽……~~

gesong2077 · 1 month ago

发现把模型的config.json里的dtype改成float16就可以跑qwen3-coder-next了，图里是awq 4bit的速度

gesong2077 · 1 month ago

请问vllm跑qwen3 next是需要设置某个启动参数或者环境变量才可以么，我这边4卡RTX 6000跑不起来qwen3 next awq或是fp8，已经用了vllm v0.14.1版本，跑qwen3 coder 30B是正常的

Anthony-Hoo · 1 month ago

我用的启动命令是

VLLM_SLEEP_WHEN_IDLE=1 \
VLLM_USE_FLASHINFER_SAMPLER=1 \
OMP_NUM_THREADS=2 \
vllm serve ~/.cache/modelscope/hub/models/cpatonn-mirror/Qwen3-Next-80B-A3B-Instruct-AWQ-4bit \
  --served-model-name Qwen3-Next-80B-A3B-Instruct-AWQ \
  --quantization compressed-tensors \
  --dtype float16 \
  --gpu-memory-utilization 0.83 \
  --max-model-len auto \
  --max-num-seqs 32 \
  --max-num-batched-tokens 2048 \
  --tensor-parallel-size 4 \
  --enable-prefix-caching \
  --attention-backend FLASHINFER \
  --tool-call-parser hermes \
  --enable-auto-tool-choice \
  --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}' \
  --enforce-eager \
  --host 0.0.0.0 \
  --port 8100

gesong2077 · 1 month ago

非常感谢。看了下你这边没用cuda graph，用了–enforce-eager，我这边就是在cuda graph编译是报的错。 😂

Anthony-Hoo · 1 month ago

cuda graph这里没法跑，因为Turing架构没有BF16 参考： https://github.com/vllm-project/vllm/pull/29901#issuecomment-3668970227

gesong2077 · 1 month ago

我这边用–enforce-eager不知道为啥速度慢的离谱，直接使用你的启动命令也一样。。。同样是Qwen3 Next AWQ 😂 ，我这还是有nvlink的，看来得跑下nccl测试了

seunji · 1 month ago

像这种 a5500 笔记本gpu 魔改的，能 p2p 吗，淘宝2600一块

Anthony-Hoo · 1 month ago

买这个不如买魔改的3080 20G了，价格差不多2800，显存带宽和容量都高一截

gesong2077 · 1 month ago

这种rebar都开不了，没可能P2P的

【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

前言

为什么选这个卡？

理论性能推算

上机实测

基本参数

拓扑互联

P2P 性能测试

vLLM推理性能

电费&收益

总结