大模型竞技场为大家带来 baidu 文心-4.5 和 文心-x1 的写代码评测结果!
简单来讲,这不是个用来写代码的模型。详细评分如 图1. 仅仅比 Gemma-3-27B-it 强一些.
这次评测由 @anthony_hoo@cyberbus.net 同学完成,感谢他的贡献!他的 github 地址是:github.com/Anthony-Hoo
具体评测中:
20个小球评测一个是完全无法渲染小球,另一个则是只有一个小球但是7边形少了一个边。
火星任务中一个能渲染但是运动轨迹弄成星球了,另一个则是飞船直线发射。
太阳系9大行星模拟中,一个是9星连珠一直连珠。另一个则是渲染了奇怪的东西。
(另,claude-3.7-sonnet-max 也在测了,这周就能发出)
详细评测地址:github.com/KCORES/kcores-llm-arena







4
William700413 days ago我前段时间也用cline搭配deepseek r1做了一个太阳系模拟,并且添加了背景、模拟速度调整和选中星球时摄像机跟随
👍
Anthony-Hoo13 days ago关于文心X1小球的那个,我这里测出来是这样的,最高分的代码多运行几次,有时候会出现2-3个小球 🤣
所以评分规则里充分考虑了这种情况,目的就是增加能完整生成20个球和不能生成20个球增加区分度