来个 Qwen3 愉快使用要规避的几个问题, 尤其是使用 Qwen3-30B-A3B 或者 Qwen3-32B :
1. 上下文避免触及到召回长度,尤其是快到 16K 就应该新开了,不然质量下降很快
2. 模型为了小又效果好,推理时长和 token 输出是要比其它模型高很多的。(想象一下神童小孩哥没学过高数,然后却能通过现有知识手撕吉米多维奇,那么他思考的时间肯定是要比同样的神人大学生要花时间的)。这个问题从 qwq 时代就存在。可以看我这个截图,运行同样数量的请求 qwq 消耗的 token 量是 claude-3.7-sonnet-thinking 的1.7倍。大部分都花在思考上了

3. 模型大小限制造成的知识量问题, 这个建议搭配 tool-call 搜索接口使用, 用来当作外部记忆增加脑容量
有短板不可怕,比如 DeepSeek-R1 我倒很喜欢它幻觉强, 用在写文上效果很好, 它乱编文献就 system-prompt 让它强制引用内容务必使用搜索接口确认来源就好了
3