KTransformers 迎来了 v0.2.1 更新!这个版本增加了 Triton MLA,可以扩展了最大上下文长度,同时还略微加快了预填充和解码的速度。详情见图片

地址:github.com/kvcache-ai/ktransformers

2
message-square
4
  • Limitee
    17 days ago

    实际测下来 0.21效果并不是很好 😂 再优化一段时间吧 我甚至遇到死循环了233333

    • karminski-牙医OPMA
      16 days ago

      不过按照我的经验,推理循环一般是路由量化太低了导致的。是量化的问题

      • Limitee
        15 days ago

        实际情况是官方算子没写好,新版已经取消了mla相关的更新 今天刚修完 🫠