大模型竞技场为大家带来 baidu 文心-4.5 和文心-x1 的写代码评测结果！

大模型竞技场为大家带来 baidu 文心-4.5 和文心-x1 的写代码评测结果！

大模型竞技场为大家带来 baidu 文心-4.5 和文心-x1 的写代码评测结果！

简单来讲，这不是个用来写代码的模型。详细评分如图1. 仅仅比 Gemma-3-27B-it 强一些.

这次评测由 @anthony_hoo@cyberbus.net 同学完成，感谢他的贡献！他的 github 地址是：github.com/Anthony-Hoo

具体评测中：

20个小球评测一个是完全无法渲染小球，另一个则是只有一个小球但是7边形少了一个边。

火星任务中一个能渲染但是运动轨迹弄成星球了，另一个则是飞船直线发射。

太阳系9大行星模拟中，一个是9星连珠一直连珠。另一个则是渲染了奇怪的东西。

（另，claude-3.7-sonnet-max 也在测了，这周就能发出）

详细评测地址：github.com/KCORES/kcores-llm-arena

1

You must log in or register to comment.

William7004
1 year ago
我前段时间也用cline搭配deepseek r1做了一个太阳系模拟，并且添加了背景、模拟速度调整和选中星球时摄像机跟随
- karminski-牙医OPMA
  1 year ago
  👍
Anthony-Hoo
1 year ago
关于文心X1小球的那个，我这里测出来是这样的，最高分的代码多运行几次，有时候会出现2-3个小球 🤣
- karminski-牙医OPMA
  1 year ago
  所以评分规则里充分考虑了这种情况，目的就是增加能完整生成20个球和不能生成20个球增加区分度