看来好多人都在熬夜肝,KTransformer 支持运行 Qwen3 啦!
Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4个请求并行可以达到总计 24.4 token/s
地址:github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

1
William700419 days ago感觉还是比较依赖cpu性能,并且30b版本显存足够,纯gpu推理应该更快 🤣 。主要还是希望能在主流配置上(8到12g显存,6到8核cpu带avx2)对30b版本有比较好的推理效果,这样就能做到接近32b版本的效果。