大家关心的 Gemma-3-27B-BF16 写代码能力测试来了,直接说结论:

请用QwQ-32B, 不要用Gemma-3-27B。

在4项测试中: 火星任务写得python代码有问题,无法运行,直接0分。 Mandelbrot-set-meet-libai 无法渲染有效的 mandelbrot-set图形,0分

太阳系动画模拟,地球运动速度过快以及计算错误,导致垫底,70分

20小球碰撞模拟,小球掉出了7边形,但比其他的只能渲染出来一个小球的模型好一些,63分。

但由于2项测试均得0分。因此总分倒数第三,仅好于GPT-4o-mini和OpenAI-o1-mini. 由于存在反复测试也无法正确写python代码的情况。建议编程还是不要用了。

测试结果地址:github.com/KCORES/kcores-LLM-Arena

1
message-square
2
  • William7004
    18 days ago

    非推理模型除了Claude都不太适合写代码,并且Gemma3在同参数量模型中应该只有多模态能力比较有用,但也比不上Align DS V等开源多模态推理模型。

    • karminski-牙医OPMA
      18 days ago

      是,感觉大家也都在AI Studio玩文生图