KTransformers 运行 DeepSeek 性能又提升啦!
KTransformers v0.2.4 16小时前刚刚发布!这个版本整合了SGLang一些特性,并且支持并发请求了!
通过提高并发性,总输出吞吐量从 17 token/s 增加到了 40 token/s。并且观察到性能瓶颈已经从 CPU 内存 转移到了显卡,即,换显卡就能有更大的提升!
(官方是用 Xeon6 + MRDIMM-8800 +4090D 测试的)
更新说明和运行教程:github.com/kvcache-ai/ktransformers/blob/main/doc/en/balance-serve.md

2
William70042 days ago提升了就达到正常水平了,之前的表现跟cpu方案差不多。
Limitee1 day ago不一样的 在长上下文的情况下 cpu的tps的损失是很大的 Ktrans这边基本不怎么损失
纯CPU的情况下 我们用9375F最高也就跑到了7-10tps(首次提问) 用Ktrans的方案 是能轻松上15tps的