Anthony-Hoo

cake
Cake day: November 14th, 2024Joined 1 year ago




  • 我用的启动命令是

    VLLM_SLEEP_WHEN_IDLE=1 \
    VLLM_USE_FLASHINFER_SAMPLER=1 \
    OMP_NUM_THREADS=2 \
    vllm serve ~/.cache/modelscope/hub/models/cpatonn-mirror/Qwen3-Next-80B-A3B-Instruct-AWQ-4bit \
      --served-model-name Qwen3-Next-80B-A3B-Instruct-AWQ \
      --quantization compressed-tensors \
      --dtype float16 \
      --gpu-memory-utilization 0.83 \
      --max-model-len auto \
      --max-num-seqs 32 \
      --max-num-batched-tokens 2048 \
      --tensor-parallel-size 4 \
      --enable-prefix-caching \
      --attention-backend FLASHINFER \
      --tool-call-parser hermes \
      --enable-auto-tool-choice \
      --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}' \
      --enforce-eager \
      --host 0.0.0.0 \
      --port 8100
    
    


  • 你发的模型1我也用过,当时试了下12038风扇得拉到5600RPM才能压住4卡满载不降频,真的直接起飞了。

    另外,Qwen2.5-Coder-32B是 dense 模型,之前Qwen3还没发布的时候我跑过一阵子Qwen2.5-32B和Qwen2.5VL-32B。 现在对比下来,发现确实,4卡TP的时候 dense模型比现在主流的moe模型要发热更多。我猜可能moe引入了一些性能开销导致卡实际上吃不满?

    btw这4卡跑Qwen3-30B-A3B-2507 W4A16的工况,–max-model-len可以开满256K,这个时候单并发生成速度有76tokens/s ,体感非常快。 但是感觉这个模型在上下文超过100K的时候召回就很不可用了,而且30B模型的能力确实不太行,后面还是换了Qwen3-Next-80B,配81920 tokens的上下文。



前言

同步发布于 我的Gist

这篇文初稿写于2025年3月,之前本来计划写好了直接发出来的,兜兜转转一直咕了,最近准备对这套配置做个升级,现在再不发出来就晚了。

现在来看,选T10性价比其实已经不是那么高,当时做这个配置的时候 2080ti 22G还要2200一块,现在已经跌到1700左右了,T10现在还在1000出头。 2080ti算力更高的同时还支持NVLink,4卡互联应该可以跑起来社区最近比较火的 MiniMax-M2.1-REAP W4A16。…

11
message-square
18

  • OpenAI卖token卖不过别人,不过他们面向一般客户的用户体验还是有些优势的,他们的模型研发团队和产品团队协作显然更好。 比如Gemini明明是1M上下文的模型,但是官网web页面输出超过100tokens之后就卡的不行。 Anthropic 的移动app在发起请求后必须保持在前台,否则断线即会终止回复。 Qwen的国内版app更是被阿里塞了一堆不知道啥玩意的狗皮膏药进去,搞得臃肿无比。



2
message-square
1




省流:这两个模型写代码效果较差,文心 4.5 略强于文心 X1。

测试项目 文心4.5 文心X1
Ball Bouncing Inside Spinning Heptagon 23 51
Mandelbrot Set Meet LiBai 52 0
Mars Mission Animation 26 39
Solar System Animation 78 38
2
message-square
5


这样可以用rss订阅 全站、某个频道/用户、帖子下的回复啥的(

4
message-square
1

Karma

  • 4 Posts
  • 13 Comments

Homelab

  • coming soon

Trophy Case