QwQ-32B 的 KCORES 大模型竞技场测试结果发布

QwQ-32B 的 KCORES 大模型竞技场测试结果发布

QwQ-32B 的 KCORES 大模型竞技场测试结果发布！

Qwen-QwQ-32B-BF16 目前测试得分为 278.9 分（图1），在榜单中超过了 DeepSeek-V3, 距离DeepSeek-R1 还比较远。

但是！距离线上的 Qwen-2.5-Max-Thinking-QwQ-Preview 仅差 0.2 分！这意味着千问这次开源的的确就是线上水平的版本！（性能类似 chat.qwen.ai 进去后点击左下角的 Thinking (QwQ)）

也就是说 QwQ-32B 目前是我们单机能部署的最具性价比的模型了！不愧是你千问！续写了 Qwen-coder 的传奇！

本次测试共分为4个项目，下面是详细得分和具体分析：

mandelbrot-set-meet-libai 测试（图2），得分结果最差，仅有53分，主要问题是渲染反了要求放大，结果渲染为了缩小。以及数值计算有问题。

mars-mission 测试（图3），得分为43分，与线上的QwQ-preview 表现一致。主要是飞船的轨道画成直线了，以及火星返回的窗口没有计算对。

solar-system 测试（图4），得分为87分，仅差3分满分，除了css圆角没写好，几乎没有扣分项了。

ball-bouncing-inside-spinning-hexagon 测试（图5），得分为61分，比 Qwen-2.5-max 高3分。主要问题是物理模拟有问题，以及小球全都掉到了7边形外面。但是小球整体的渲染还可以。

详细评测地址：github.com/KCORES/kcores-llm-arena

3

You must log in or register to comment.

ajar
1 year ago
试了下豆包，七边形都渲染不出来 😂
- karminski-牙医OPMA
  1 year ago
  猜猜为啥自家的 TREA 编辑器写代码不用豆包 😅
  - ajar
    1 year ago
    😂 但是国内版是deepseek+豆包
    - karminski-牙医OPMA
      1 year ago
      草