为啥open-webui 首字延迟特别大？

cb_discovery · 7 months ago

为啥open-webui 首字延迟特别大？

alert('beep') · 7 months ago

我怀疑你需要配置ollama的模型keeplive时间，默认是5分钟，如果模型不在显存里读取模型加载的时间是比较久的。

cb_discovery · 7 months ago

我也发现了过一段时间会释放显存，不过应该不是这个问题，因为在连续追问的情况下延迟还是很大

ajar · 7 months ago

openwebui感觉还是接api用最舒服，开了ollama就卡得不行（界面

karminski-牙医 · 7 months ago

看下ollama日志？另外你的32B是什么量化版本的？会不会ollama配置的有问题？比如大部分都卸载到CPU上了之类的

cb_discovery · 7 months ago

我是通过ollama run deepseek-r1:32b 直接部署的，什么量化没注意，可能是int4吧，在cmd直接输入问题倒是没啥首字延迟的，token的生成速度也没啥问题的，通过verbose来看有大概20tokens/s, 符合2080ti 22g 的速度，任务管理器显示显存占用也才19.几G。

_neo · 7 months ago

默认就是int4版本。是不是think部分没展示出来，你直接在命令行运行试试看。模型加载也需要时间的。