现在最快的单机推理模型是KTransformers了？

karminski-牙医 · 8 months ago

chraav · 8 months ago

llama.cpp的cpu部分接好也有amx优化，不知道为啥暴会差这么大，是不是参数设置有点问题

AlphaArea · 8 months ago

ktransformers 是利用 sparsity of attention 加速的正经 CPU/GPU 混合推理框架

llama.cpp是纯粹的pipeline parallelism草履虫，除了代码简单蹭新模型热点速度快以外，就别指望它有任何性能亮点了

chraav · 8 months ago

没必要拉踩吧，其实业界利用sparsity of attention的最佳实践应该是MoE的模型，每层激活少量专家，计算量大大减少，不过这个算是模型架构的问题了，和框架关系不大

karminski-牙医 · 8 months ago

不知道…不过我AMX要4代铂金，感觉群垃圾佬上3代铂金的都少…

li2244578 · 8 months ago

AMX 1代可扩展志强没amx吧.

naivekun · 8 months ago

内存涨疯了，去年1500的96g ddr5我嫌贵没买，今天看了下要2900