大模型竞技场刚刚更新了 Hunyuan-TuborS-20250313 的评分。依旧是来自 ramondsq 同学的贡献。十分感谢。

到目前为止,国内的头部模型也基本评测完毕了(可能差个Zhipu GLM?) 感觉可以得出一些结论:

DeepSeek 无疑是国内第一,Qwen 紧随其后。Kimi 则是第三。

其余的模型则掉出了第一甚至第二梯队(以每100分为界限,超过300分的第一梯队写代码都很强,超过200分的第二梯队勉强能用,小于200分的不要浪费时间)。甚至可能打不过一些下猛料微调的"中模型" (40B以内)。

拿刚测的这个 Hunyuan-TuborS 为例,让它所有代码都要写到同一个文件里。结果硬是要2个文件。连这种最基础的优化都出了问题(参与测试的29个模型唯一一个挂掉这个测试项的,估计是训练材料质量不好)。

这些得分低的厂商不得不面对的现实是:继续炼,还是接 DeepSeek。继续练,等于真烧钱。接 DeepSeek,意味着核心竞争力已经丧失了。那么这些模型可能到明年,甚至快一点到今年第三季度,就再也看不到更新了。

我真心希望 DeepSeek 能开源得更久一些,这样让大部分模型都能获得一个不错的基础水平。不至于掉队。但终局是早晚的事情,只希望他们能撑到盘中,这样我们还有更多的选择。

评测地址:github.com/KCORES/kcores-llm-arena ramondsq 同学的 github 地址:github.com/ramondsq

1
message-square
0