因为看到 Hunyuan-TurboS-20250226 在 Chatbot Arena 的 Coding 专项排名很高。就测了一下。

依旧是 KCORES 大模型竞技场 的铁人四项。
用的腾讯云提供的 API ,测试的最新的 hunyuan-turbos-20250313 。使用 Open WebUI 进行 api 调用,使用默认参数,无系统提示词。
结果如下图,综合排名倒数第三,整体效果较差。

七边形小球一开始在四周生成,然后全部直接掉出。

mandelbrot-set-meet-libai 能显示出来,但是每200帧才渲染一次……而且各种不符合要求。

火星任务直接三次代码报错,无法运行。
太阳系模拟还需要额外的 worker.js 文件,我还是给他测了,实现效果非常差。

感觉 Chatbot Arena 越来越野榜了……
4
From cyberbus with hack
https://cyberbus.net/post/466
我还是比较信 Aider Leaderboard 一些哈哈哈
然后我还试了一下豆包和元宝网页版新出的推理模型,结果第一个七边形小球就报错……就没继续测下去了
话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。
确实,指令跟随太差了