大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分

大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分。依旧是来自 ramondsq 同学的贡献。十分感谢。

到目前为止，国内的头部模型也基本评测完毕了（可能差个Zhipu GLM？）感觉可以得出一些结论：

DeepSeek 无疑是国内第一，Qwen 紧随其后。Kimi 则是第三。

其余的模型则掉出了第一甚至第二梯队（以每100分为界限，超过300分的第一梯队写代码都很强，超过200分的第二梯队勉强能用，小于200分的不要浪费时间）。甚至可能打不过一些下猛料微调的"中模型" (40B以内)。

拿刚测的这个 Hunyuan-TuborS 为例，让它所有代码都要写到同一个文件里。结果硬是要2个文件。连这种最基础的优化都出了问题（参与测试的29个模型唯一一个挂掉这个测试项的，估计是训练材料质量不好）。

这些得分低的厂商不得不面对的现实是：继续炼，还是接 DeepSeek。继续练，等于真烧钱。接 DeepSeek，意味着核心竞争力已经丧失了。那么这些模型可能到明年，甚至快一点到今年第三季度，就再也看不到更新了。

我真心希望 DeepSeek 能开源得更久一些，这样让大部分模型都能获得一个不错的基础水平。不至于掉队。但终局是早晚的事情，只希望他们能撑到盘中，这样我们还有更多的选择。