不懂就问,本地2080ti 22g,ollama 部署了32B的deepseek-r1,通过open-webui 每次提问首字延迟都是几十秒这种级别的,换chatbox只有第一次比较大,第二次及以后好点,是因为docker的性能限制么?
6
alert('beep')23 days ago我怀疑你需要配置ollama的模型keeplive时间,默认是5分钟,如果模型不在显存里读取模型加载的时间是比较久的。
我也发现了过一段时间会释放显存,不过应该不是这个问题,因为在连续追问的情况下延迟还是很大
ajar14 days agoopenwebui感觉还是接api用最舒服,开了ollama就卡得不行(界面
看下ollama日志?另外你的32B是什么量化版本的?会不会ollama配置的有问题?比如大部分都卸载到CPU上了之类的
我是通过ollama run deepseek-r1:32b 直接部署的,什么量化没注意,可能是int4吧,在cmd直接输入问题倒是没啥首字延迟的,token的生成速度也没啥问题的,通过verbose来看有大概20tokens/s, 符合2080ti 22g 的速度,任务管理器显示显存占用也才19.几G。
_neo15 days ago默认就是int4版本。是不是think部分没展示出来,你直接在命令行运行试试看。模型加载也需要时间的。