因为看到 Hunyuan-TurboS-20250226Chatbot Arena 的 Coding 专项排名很高。就测了一下。

依旧是 KCORES 大模型竞技场 的铁人四项。

用的腾讯云提供的 API ,测试的最新的 hunyuan-turbos-20250313 。使用 Open WebUI 进行 api 调用,使用默认参数,无系统提示词。

结果如下图,综合排名倒数第三,整体效果较差。

七边形小球一开始在四周生成,然后全部直接掉出。

mandelbrot-set-meet-libai 能显示出来,但是每200帧才渲染一次……而且各种不符合要求。

火星任务直接三次代码报错,无法运行。

太阳系模拟还需要额外的 worker.js 文件,我还是给他测了,实现效果非常差。

感觉 Chatbot Arena 越来越野榜了……

2
message-square
4

From cyberbus with hack

Post QR Code

https://cyberbus.net/post/466

  • karminski-牙医MA
    3 days ago

    我还是比较信 Aider Leaderboard 一些哈哈哈

  • ajarOP
    3 days ago

    然后我还试了一下豆包和元宝网页版新出的推理模型,结果第一个七边形小球就报错……就没继续测下去了

  • karminski-牙医MA
    3 days ago

    话说回来hunyuan这个web worker 代码要单独放一个,也是离谱,这些所有模型都没犯这么低级的问题。。。prompt明确要求了所有代码要放在同一个文件。感觉是训练材料太拉了。

    • ajarOP
      3 days ago

      确实,指令跟随太差了