省流:这两个模型写代码效果较差,文心 4.5 略强于文心 X1。

测试项目 文心4.5 文心X1
Ball Bouncing Inside Spinning Heptagon 23 51
Mandelbrot Set Meet LiBai 52 0
Mars Mission Animation 26 39
Solar System Animation 78 38
正规化后总分 199.5 158.9

感觉文心 X1 不是很好用,每次都要推理15+k tokens才能出结果,虽然隔壁的QwQ32B也喜欢推理很久,但是起码QwQ最后能给出一个不错的回答,文心就不行了。 此外,每组测试生成3次代码后,文心4.5每次生成的结果只有细微差别,而文心x1生成的往往只有一组能够正常运行,其稳定性比较低。

不知道这两个模型具体有多少参数,如果百度真能按照其承诺在6月份开源,到时候可以再看看其和类似规模的竟品比起来如何。

2
message-square
5
  • karminski-牙医MA
    14 days ago

    牛逼,我的刚跑完还没来得及人肉评分 😇 老铁愿意提交PR吗?我根据结果再人肉复核下,没问题就合并了

    • Anthony-HooOP
      14 days ago

      整理了下结果,已经pr了,需要把测试过程中生成的代码也附上吗

      • karminski-牙医MA
        13 days ago

        是的,需要增加到src文件夹。另外每个测试需要测试三次turn-1 - turn-3,并且分数最高的后面后缀-high-score 保持同样风格即可

  • ajar
    13 days ago

    刚出来那天我也马上跑了一下,七边形小球,结果画面一片空白……