Qwen QwQ-32B 各个量化版本速度测试结果!我刚测完哈哈!

测试的统一prompt是"what is your model name and version?"

测试平台是 Apple M2 Ultra 128GB,均使用mlx框架测试。

其中原生的BF16,速度为10.84 t/s, 最高使用内存65.6GB 8bit量化速度为 18.205 t/s, 最高使用内存34.9GB 4bit量化速度为 31.622 t/s, 最高使用内存18.5GB 3bit量化速度为 35.063 t/s, 最高使用内存14.4GB

更长的prompt测试性能一会放出。

顺便根据内存带宽计算的其它型号的Mac生成速度如下:

  • 如果是 Apple M3 Ultra, 生成速度预估与本表格一致
  • 如果是 Apple M4 Max, 生成速度预估 QwQ-32B-4bit 为 19.76 tokens/sec
  • 如果是 Apple M4 Pro, 生成速度预估 QwQ-32B-4bit 为 10.79 tokens/sec
  • 如果是 Apple M4 , 生成速度预估 QwQ-32B-4bit 为 4.74 tokens/sec

(因此建议还是至少买 Apple MacMini M4 Pro 32GB 比较好)

2
message-square
0