先贴个链接Ktransformers 官方目前暂时更新到了0.2版本 0.3版本还在测试,由于0.3版本需要AMX指令集支持,所以只对0.2版本进行了测试

具体部署流程在仓库的doc已经写的很清楚了 其中有两个小坑 第一个要更新工具链,已经在仓库中FAQ给出;第二个是flash_attn的编译安装(这一步非常慢,所以建议能直接装whl就直接装)

效果测试👇

推理过程
推理过程

性能测试
性能测试 (后续测试中若上下文较长会损失30%-40%的速度)

ktransformer主要是将整个模型分为两部分:

  • 专家模型交给CPU侧 Q4量化版本下大约cached 380g内存
  • 注意力交给GPU侧 Q4量化版本下大约cached 13g显存

显存加载
smi数据

最后说说整机具体配置:

  • 双路 EPYC9334QS
  • 24 * 48G DDR5 5600MHz
  • 1 * NVIDIA 4090 48G (实际过程用不到这么高的配置,这配置都可以双开,每个numa单独跑了😂😂)
6
message-square
3
  • cb_discovery
    17 days ago

    不知道这个瓶颈是在什么地方,内存带宽么?ddr4的服务器内存是真的便宜,插满512G花费才2100足够了

    • LimiteeOP
      17 days ago

      嗯 内存带宽始终都是最大瓶颈 其次就是cpu了 志强支持amx应该会好很多 gpu反倒不怎么吃