Ollama支持AVX512啦！

karminski-牙医 · 1 year ago

li2244578 · 1 year ago

问下纯cpu堆384内存 6138 双路能跑3T秒不…还是得凑到768?

karminski-牙医 · 1 year ago

算一下总带宽呗，带宽除以模型大小基本就是秒速上限了。比如内存带宽200GB/s模型大小50GB，那就每秒最大4token

li2244578 · 1 year ago

我384内存跑671B 2.51bit的差不多2Token秒.

AlphaArea · 1 year ago

不如自己编译个intel oneMKL的llama.cpp后端给ollama塞进去

karminski-牙医 · 1 year ago

intel 编译器套件感觉都快黄了…