测试了 Hunyuan-TurboS 代码能力

ajar · 1 year ago

karminski-牙医 · 1 year ago

我还是比较信 Aider Leaderboard 一些哈哈哈

ajar · 1 year ago

然后我还试了一下豆包和元宝网页版新出的推理模型，结果第一个七边形小球就报错……就没继续测下去了

karminski-牙医 · 1 year ago

话说回来hunyuan这个web worker 代码要单独放一个，也是离谱，这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。

ajar · 1 year ago

确实，指令跟随太差了