





我这边用–enforce-eager不知道为啥速度慢的离谱,直接使用你的启动命令也一样。。。同样是Qwen3 Next AWQ 😂 ,我这还是有nvlink的,看来得跑下nccl测试了
非常感谢。看了下你这边没用cuda graph,用了–enforce-eager,我这边就是在cuda graph编译是报的错。 😂
这种rebar都开不了,没可能P2P的
请问vllm跑qwen3 next是需要设置某个启动参数或者环境变量才可以么,我这边4卡RTX 6000跑不起来qwen3 next awq或是fp8,已经用了vllm v0.14.1版本,跑qwen3 coder 30B是正常的