Qwen3 写代码能力测试来啦!
简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型

来看 KCORES LLM Arena 的测试结果:
20小球七边形测试结果:
主要问题出现在小球掉出了七边形,以及小球摩擦极其微弱判定为无摩擦的扣分,但整体实现效果仍然很好。得分71分与 Gemini-2.0-Flash 相当


mandelbrot-set-meet-libai 测试结果:
主要问题出现在渲染过大以及颜色弄反了造成的扣分。但是渲染性能和绘制准确度都很好。得分89分与Qwen2.5-Max-Thinking-QwQ-Preview 相当


火星任务测试结果:
表现非常好,发射和返回窗口虽然有误差但是都小于50%,要知道很多模型正是因为完全不知道从火星返回也需要窗口因此丢了很多分数。得分49分仅次于Gemini-2.5-Pro.


太阳系九大行星测试结果:
这个渲染得就毫无亮点可言,也没土星环,也没华丽的星球效果。但是,没有犯致命的错误,得分85分与 OpenAI-o4-mini 相当


看上去没有任何一个结果特别强,但是!每个测试都发挥很稳定,这导致最终得分特别高,得分329.6分,排在了排行榜的第四名!是目前开源模型第一名!
我接下来很期待 Aider Leaderboard 和 SWE Bench 会是什么结果了。总之,想要本地部署的同学,这就是你想要的模型。赶紧加卡吧哈哈哈哈(不说了我的Mac正好装不下4bit量化,我去哭去了…)
另外考虑到现在新发模型已经导致榜单马上就要饱和,所以稍后我将放出 kcores-llm-arena 新的测试集!敬请期待!(最后一张图是预览)
评测地址:github.com/KCORES/kcores-LLM-Arena

yorktown15 hours ago准备下个32B的来玩玩,主要是想看看非思考模式的能力。复杂任务直接用在线的了,本地只要快速出一个可用结果就行 😀