KTransformers 运行 DeepSeek 性能又提升啦！

KTransformers 运行 DeepSeek 性能又提升啦！

KTransformers 运行 DeepSeek 性能又提升啦！

KTransformers v0.2.4 16小时前刚刚发布！这个版本整合了SGLang一些特性，并且支持并发请求了！

通过提高并发性，总输出吞吐量从 17 token/s 增加到了 40 token/s。并且观察到性能瓶颈已经从 CPU 内存转移到了显卡，即，换显卡就能有更大的提升！

（官方是用 Xeon6 + MRDIMM-8800 +4090D 测试的）

更新说明和运行教程：github.com/kvcache-ai/ktransformers/blob/main/doc/en/balance-serve.md

1

You must log in or register to comment.

William7004
1 year ago
提升了就达到正常水平了，之前的表现跟cpu方案差不多。
- Limitee
  1 year ago
  不一样的在长上下文的情况下 cpu的tps的损失是很大的 Ktrans这边基本不怎么损失
  
  纯CPU的情况下我们用9375F最高也就跑到了7-10tps（首次提问）用Ktrans的方案是能轻松上15tps的