来个 Qwen3 愉快使用要规避的几个问题,

来个 Qwen3 愉快使用要规避的几个问题,

来个 Qwen3 愉快使用要规避的几个问题, 尤其是使用 Qwen3-30B-A3B 或者 Qwen3-32B ：

1. 上下文避免触及到召回长度，尤其是快到 16K 就应该新开了，不然质量下降很快

2. 模型为了小又效果好，推理时长和 token 输出是要比其它模型高很多的。（想象一下神童小孩哥没学过高数，然后却能通过现有知识手撕吉米多维奇，那么他思考的时间肯定是要比同样的神人大学生要花时间的）。这个问题从 qwq 时代就存在。可以看我这个截图，运行同样数量的请求 qwq 消耗的 token 量是 claude-3.7-sonnet-thinking 的1.7倍。大部分都花在思考上了

3. 模型大小限制造成的知识量问题, 这个建议搭配 tool-call 搜索接口使用, 用来当作外部记忆增加脑容量

有短板不可怕，比如 DeepSeek-R1 我倒很喜欢它幻觉强, 用在写文上效果很好, 它乱编文献就 system-prompt 让它强制引用内容务必使用搜索接口确认来源就好了

2

You must log in or register to comment.

YsHaNg
6 months ago
硬件垃圾佬非常开心 3b激活1070都能愉快跑13k上下文以前用gemma3:12b勉强才跑5k
- linyoung
  5 months ago
  6g显存能跑a3b吗，我不是很明白是只加载激活的部分到vram还是整个30b进入vram
  - YsHaNg
    5 months ago
    ollama可以设置offload layers