省流:这两个模型写代码效果较差,文心 4.5 略强于文心 X1。
测试项目 | 文心4.5 | 文心X1 |
---|---|---|
Ball Bouncing Inside Spinning Heptagon | 23 | 51 |
Mandelbrot Set Meet LiBai | 52 | 0 |
Mars Mission Animation | 26 | 39 |
Solar System Animation | 78 | 38 |
正规化后总分 | 199.5 | 158.9 |
感觉文心 X1 不是很好用,每次都要推理15+k tokens才能出结果,虽然隔壁的QwQ32B也喜欢推理很久,但是起码QwQ最后能给出一个不错的回答,文心就不行了。 此外,每组测试生成3次代码后,文心4.5每次生成的结果只有细微差别,而文心x1生成的往往只有一组能够正常运行,其稳定性比较低。
不知道这两个模型具体有多少参数,如果百度真能按照其承诺在6月份开源,到时候可以再看看其和类似规模的竟品比起来如何。
5
牛逼,我的刚跑完还没来得及人肉评分 😇 老铁愿意提交PR吗?我根据结果再人肉复核下,没问题就合并了
整理了下结果,已经pr了,需要把测试过程中生成的代码也附上吗
是的,需要增加到src文件夹。另外每个测试需要测试三次turn-1 - turn-3,并且分数最高的后面后缀-high-score 保持同样风格即可
发布啦!感谢贡献♥
ajar13 days ago刚出来那天我也马上跑了一下,七边形小球,结果画面一片空白……