Qwen QwQ-32B 各个量化版本速度测试结果

Qwen QwQ-32B 各个量化版本速度测试结果！我刚测完哈哈！

测试的统一prompt是"what is your model name and version?"

测试平台是 Apple M2 Ultra 128GB，均使用mlx框架测试。

其中原生的BF16，速度为10.84 t/s, 最高使用内存65.6GB 8bit量化速度为 18.205 t/s, 最高使用内存34.9GB 4bit量化速度为 31.622 t/s, 最高使用内存18.5GB 3bit量化速度为 35.063 t/s, 最高使用内存14.4GB

更长的prompt测试性能一会放出。

顺便根据内存带宽计算的其它型号的Mac生成速度如下：

(因此建议还是至少买 Apple MacMini M4 Pro 32GB 比较好)