Ollama支持AVX512了,之前使用Ollama本地部署DeepSeek-R1各个蒸馏版本的同学可以试试最新版本,看看变快了多少 [赢牛奶]

ollama地址:github.com/ollama/ollama

安装完毕后直接命令行 ollama run deepseek-r1 就行(默认是个Qwen-7B的蒸馏版本)

1
message-square
5
  • li2244578
    2 months ago

    问下 纯cpu堆384内存 6138 双路 能跑3T秒不…还是得凑到768?

    • karminski-牙医OPMA
      2 months ago

      算一下总带宽呗,带宽除以模型大小基本就是秒速上限了。比如内存带宽200GB/s模型大小50GB,那就每秒最大4token

      • li2244578
        2 months ago

        我384内存 跑671B 2.51bit的 差不多2Token秒.

  • AlphaAreaA
    2 months ago

    不如自己编译个intel oneMKL的llama.cpp后端给ollama塞进去