@gesong2077

gesong2077 · 6 months ago

发现把模型的config.json里的dtype改成float16就可以跑qwen3-coder-next了，图里是awq 4bit的速度

gesong2077 · 6 months ago

我这边用–enforce-eager不知道为啥速度慢的离谱，直接使用你的启动命令也一样。。。同样是Qwen3 Next AWQ 😂 ，我这还是有nvlink的，看来得跑下nccl测试了

gesong2077 · 6 months ago

非常感谢。看了下你这边没用cuda graph，用了–enforce-eager，我这边就是在cuda graph编译是报的错。 😂

gesong2077 · 6 months ago

这种rebar都开不了，没可能P2P的

gesong2077 · 6 months ago

请问vllm跑qwen3 next是需要设置某个启动参数或者环境变量才可以么，我这边4卡RTX 6000跑不起来qwen3 next awq或是fp8，已经用了vllm v0.14.1版本，跑qwen3 coder 30B是正常的

Karma