大模型竞技场为大家带来 baidu 文心-4.5 和 文心-x1 的写代码评测结果!

简单来讲,这不是个用来写代码的模型。详细评分如 图1. 仅仅比 Gemma-3-27B-it 强一些.

这次评测由 @anthony_hoo@cyberbus.net 同学完成,感谢他的贡献!他的 github 地址是:github.com/Anthony-Hoo

具体评测中:

20个小球评测一个是完全无法渲染小球,另一个则是只有一个小球但是7边形少了一个边。

火星任务中一个能渲染但是运动轨迹弄成星球了,另一个则是飞船直线发射。

太阳系9大行星模拟中,一个是9星连珠一直连珠。另一个则是渲染了奇怪的东西。

(另,claude-3.7-sonnet-max 也在测了,这周就能发出)

详细评测地址:github.com/KCORES/kcores-llm-arena

1
message-square
4
  • William7004
    13 days ago

    我前段时间也用cline搭配deepseek r1做了一个太阳系模拟,并且添加了背景、模拟速度调整和选中星球时摄像机跟随

  • Anthony-Hoo
    13 days ago

    关于文心X1小球的那个,我这里测出来是这样的,最高分的代码多运行几次,有时候会出现2-3个小球 🤣

    • karminski-牙医OPMA
      13 days ago

      所以评分规则里充分考虑了这种情况,目的就是增加能完整生成20个球和不能生成20个球增加区分度