DeepSeek 开源的 FlashMLA已经合并到vLLM了

DeepSeek 开源的 FlashMLA已经合并到vLLM了

DeepSeek 开源的 FlashMLA已经合并到vLLM了，吞吐性能提高5%-10%，相对的会增加1%的延迟。感兴趣的同学可以试试了。

需要注意的是，目前只支持MLA model ，以及，这个改进目前只能用在Hopper架构的显卡上（H100，H200，H800）.

PR详细地址：github.com/vllm-project/vllm/pull/13747

1

You must log in or register to comment.