看来好多人都在熬夜肝，KTransformer 支持运行 Qwen3 啦!

看来好多人都在熬夜肝，KTransformer 支持运行 Qwen3 啦!

看来好多人都在熬夜肝，KTransformer 支持运行 Qwen3 啦!

Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4个请求并行可以达到总计 24.4 token/s

地址：github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

2

You must log in or register to comment.

William7004
1 year ago
感觉还是比较依赖cpu性能，并且30b版本显存足够，纯gpu推理应该更快 🤣 。主要还是希望能在主流配置上（8到12g显存，6到8核cpu带avx2）对30b版本有比较好的推理效果，这样就能做到接近32b版本的效果。