QwQ-32B 的 KCORES 大模型竞技场测试结果发布!
Qwen-QwQ-32B-BF16 目前测试得分为 278.9 分(图1),在榜单中超过了 DeepSeek-V3, 距离DeepSeek-R1 还比较远。

但是!距离线上的 Qwen-2.5-Max-Thinking-QwQ-Preview 仅差 0.2 分!这意味着千问这次开源的的确就是线上水平的版本!(性能类似 chat.qwen.ai 进去后点击左下角的 Thinking (QwQ))
也就是说 QwQ-32B 目前是我们单机能部署的最具性价比的模型了!不愧是你千问!续写了 Qwen-coder 的传奇!
本次测试共分为4个项目,下面是详细得分和具体分析:
mandelbrot-set-meet-libai 测试 (图2),得分结果最差,仅有53分,主要问题是渲染反了要求放大,结果渲染为了缩小。以及数值计算有问题。


mars-mission 测试(图3),得分为43分,与线上的QwQ-preview 表现一致。主要是飞船的轨道画成直线了,以及火星返回的窗口没有计算对。


solar-system 测试(图4),得分为87分,仅差3分满分,除了css圆角没写好,几乎没有扣分项了。


ball-bouncing-inside-spinning-hexagon 测试(图5),得分为61分, 比 Qwen-2.5-max 高3分。主要问题是物理模拟有问题,以及小球全都掉到了7边形外面。但是小球整体的渲染还可以。


4