试着用 KCORES LLM Arena 的测试用例跑了下文心 4.5 和文心 X1

Anthony-Hoo · 1 year ago

karminski-牙医 · 1 year ago

牛逼，我的刚跑完还没来得及人肉评分 😇 老铁愿意提交PR吗？我根据结果再人肉复核下，没问题就合并了

Anthony-Hoo · 1 year ago

整理了下结果，已经pr了，需要把测试过程中生成的代码也附上吗

karminski-牙医 · 1 year ago

是的，需要增加到src文件夹。另外每个测试需要测试三次turn-1 - turn-3，并且分数最高的后面后缀-high-score 保持同样风格即可

karminski-牙医 · 1 year ago

发布啦！感谢贡献♥

ajar · 1 year ago

刚出来那天我也马上跑了一下，七边形小球，结果画面一片空白……

测试项目	文心4.5	文心X1
Ball Bouncing Inside Spinning Heptagon	23	51
Mandelbrot Set Meet LiBai	52	0
Mars Mission Animation	26	39
Solar System Animation	78	38
正规化后总分	199.5	158.9