【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

Anthony-Hoo · 3 months ago

看起来原始机型似乎是ThinkPad L13 Yoga Gen 3 AMD版，C面的摄像头是翻转之后平板模式下当后摄用的。参考： https://www.lenovo.com/us/en/p/laptops/thinkpad/thinkpadl/thinkpad-l13-yoga-gen-3-13-inch-amd/len101t0034

Anthony-Hoo · 4 months ago

cuda graph这里没法跑，因为Turing架构没有BF16 参考： https://github.com/vllm-project/vllm/pull/29901#issuecomment-3668970227

Anthony-Hoo · 4 months ago

买这个不如买魔改的3080 20G了，价格差不多2800，显存带宽和容量都高一截

Anthony-Hoo · 4 months ago

我用的启动命令是

VLLM_SLEEP_WHEN_IDLE=1 \
VLLM_USE_FLASHINFER_SAMPLER=1 \
OMP_NUM_THREADS=2 \
vllm serve ~/.cache/modelscope/hub/models/cpatonn-mirror/Qwen3-Next-80B-A3B-Instruct-AWQ-4bit \
  --served-model-name Qwen3-Next-80B-A3B-Instruct-AWQ \
  --quantization compressed-tensors \
  --dtype float16 \
  --gpu-memory-utilization 0.83 \
  --max-model-len auto \
  --max-num-seqs 32 \
  --max-num-batched-tokens 2048 \
  --tensor-parallel-size 4 \
  --enable-prefix-caching \
  --attention-backend FLASHINFER \
  --tool-call-parser hermes \
  --enable-auto-tool-choice \
  --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}' \
  --enforce-eager \
  --host 0.0.0.0 \
  --port 8100

Anthony-Hoo · 4 months ago

是啊，不仅3槽起步，还超长+越肩小机箱爱好者苦不堪言了

Anthony-Hoo · 4 months ago

你发的模型1我也用过，当时试了下12038风扇得拉到5600RPM才能压住4卡满载不降频，真的直接起飞了。

另外，Qwen2.5-Coder-32B是 dense 模型，之前Qwen3还没发布的时候我跑过一阵子Qwen2.5-32B和Qwen2.5VL-32B。现在对比下来，发现确实，4卡TP的时候 dense模型比现在主流的moe模型要发热更多。我猜可能moe引入了一些性能开销导致卡实际上吃不满？

btw这4卡跑Qwen3-30B-A3B-2507 W4A16的工况，–max-model-len可以开满256K，这个时候单并发生成速度有76tokens/s ，体感非常快。但是感觉这个模型在上下文超过100K的时候召回就很不可用了，而且30B模型的能力确实不太行，后面还是换了Qwen3-Next-80B，配81920 tokens的上下文。

Anthony-Hoo · 4 months ago

我一开始用的这个模型配的4CM磁浮暴力扇+调速器减速，1M噪音48dB的风力可以压住4卡满载150w烤机。

后面发现实际上跑vLLM TP的时候功率不高，32并发推理时平均单卡才60w不到，我就直接把整个机箱结构竖着放在空气净化器出风口了，静音高效还不用清灰 ☝️ 🤓

4 months ago

c/homelab · 4 months ago

Anthony-Hoo · 11 months ago

OpenAI卖token卖不过别人，不过他们面向一般客户的用户体验还是有些优势的，他们的模型研发团队和产品团队协作显然更好。比如Gemini明明是1M上下文的模型，但是官网web页面输出超过100tokens之后就卡的不行。 Anthropic 的移动app在发起请求后必须保持在前台，否则断线即会终止回复。 Qwen的国内版app更是被阿里塞了一堆不知道啥玩意的狗皮膏药进去，搞得臃肿无比。

Anthony-Hoo · 1 year ago

omni模型在本地跑的话，似乎可以做离线的语音翻译器，回头试试看。手机的内存带宽还是瓶颈，也许他这个iOS版本在m系列的iPad上运行更快？

1 year ago

c/graphic_card · 1 year ago

Anthony-Hoo · 1 year ago

关于文心X1小球的那个，我这里测出来是这样的，最高分的代码多运行几次，有时候会出现2-3个小球 🤣

Anthony-Hoo · 1 year ago

整理了下结果，已经pr了，需要把测试过程中生成的代码也附上吗

Anthony-Hoo · 1 year ago

比较好奇这东西CPU能拉出来多少内存带宽，果子这边哪怕是M3Ultra，CPU部分也只有最大不到256GB/s的速度，要吃满800G得用GPU调用。

如果CPU带宽大的话也许HPC业务能从中受益

1 year ago

c/ai_llm · 1 year ago

Anthony-Hoo · 1 year ago

会不会像mac pro里面的m2 ultra类似的封装，内存颗粒在顶盖下

打开ihs之后其实是这样的

1 year ago

c/dam · 1 year ago

测试项目	文心4.5	文心X1
Ball Bouncing Inside Spinning Heptagon	23	51
Mandelbrot Set Meet LiBai	52	0
Mars Mission Animation	26	39
Solar System Animation	78	38

Anthony-Hoo

【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

【捡垃圾】4卡Tesla T10 LLM推理机，运行Qwen-Next-80B

前言

看来B770无了

看来B770无了

试着用 KCORES LLM Arena 的测试用例跑了下文心 4.5 和文心 X1

试着用 KCORES LLM Arena 的测试用例跑了下文心 4.5 和文心 X1

本站有没有接入RSS的计划

本站有没有接入RSS的计划

Karma

Homelab

Trophy Case