简单利用 Ktransformers 本地运行Deepseek-R1 671b Q4量化版本

简单利用 Ktransformers 本地运行Deepseek-R1 671b Q4量化版本

先贴个链接Ktransformers 官方目前暂时更新到了0.2版本 0.3版本还在测试，由于0.3版本需要AMX指令集支持，所以只对0.2版本进行了测试

具体部署流程在仓库的doc已经写的很清楚了其中有两个小坑第一个要更新工具链，已经在仓库中FAQ给出；第二个是flash_attn的编译安装（这一步非常慢，所以建议能直接装whl就直接装）

效果测试👇

推理过程

推理过程

性能测试

性能测试 （后续测试中若上下文较长会损失30%-40%的速度）

ktransformer主要是将整个模型分为两部分：

专家模型交给CPU侧 Q4量化版本下大约cached 380g内存
注意力交给GPU侧 Q4量化版本下大约cached 13g显存

显存加载

smi数据

最后说说整机具体配置：

双路 EPYC9334QS
24 * 48G DDR5 5600MHz
1 * NVIDIA 4090 48G （实际过程用不到这么高的配置，这配置都可以双开，每个numa单独跑了😂😂）

6

You must log in or register to comment.

karminski-牙医
cake
MA
7 months ago
牛逼👍
cb_discovery
7 months ago
不知道这个瓶颈是在什么地方，内存带宽么？ddr4的服务器内存是真的便宜，插满512G花费才2100足够了
- LimiteeOP
  7 months ago
  嗯内存带宽始终都是最大瓶颈其次就是cpu了志强支持amx应该会好很多 gpu反倒不怎么吃