如果在苹果设备上用 MLX 量化模型的同学,务必试试新的 DWQ 量化。从数据上看 4bit-dwq 量化的困惑度甚至比老的 6bit 量化还低。

Qwen3-30B-A3B-4bit-DWQ 量化版本的MLX官方地址,17GB 内存就能跑:huggingface.co/mlx-community/Qwen3-30B-A3B-4bit-DWQ

1
message-square
0