Fiction-liveBench 进行了长上下文测试，QwQ-32B的表现比Gemma-3-27B 好很多。在60K的长上下文情况下都很能打。

karminski-牙医 · 1 year ago

hqshi · 1 year ago

在寻思本地部署个32b的qwq，但是v100 16g空间不够，4090也不想占用

karminski-牙医 · 1 year ago

其实内存够强，量化版用CPU跑也行

YsHaNg · 1 year ago

“离线批量任务”是怎么做？

karminski-牙医 · 1 year ago

写代码，用SDK或者curl调用llm。然后设置timeout，等到LLM出结果后处理后存储