不懂就问,本地2080ti 22g,ollama 部署了32B的deepseek-r1,通过open-webui 每次提问首字延迟都是几十秒这种级别的,换chatbox只有第一次比较大,第二次及以后好点,是因为docker的性能限制么?

1
message-square
6
  • alert('beep')
    23 days ago

    我怀疑你需要配置ollama的模型keeplive时间,默认是5分钟,如果模型不在显存里读取模型加载的时间是比较久的。

    • cb_discoveryOP
      22 days ago

      我也发现了过一段时间会释放显存,不过应该不是这个问题,因为在连续追问的情况下延迟还是很大

  • ajar
    14 days ago

    openwebui感觉还是接api用最舒服,开了ollama就卡得不行(界面

  • karminski-牙医MA
    23 days ago

    看下ollama日志?另外你的32B是什么量化版本的?会不会ollama配置的有问题?比如大部分都卸载到CPU上了之类的

    • cb_discoveryOP
      23 days ago

      我是通过ollama run deepseek-r1:32b 直接部署的,什么量化没注意,可能是int4吧,在cmd直接输入问题倒是没啥首字延迟的,token的生成速度也没啥问题的,通过verbose来看有大概20tokens/s, 符合2080ti 22g 的速度,任务管理器显示显存占用也才19.几G。

      • _neo
        15 days ago

        默认就是int4版本。是不是think部分没展示出来,你直接在命令行运行试试看。模型加载也需要时间的。