来啦！GPT-4.1 测评！

KCORES 大模型竞技场为大家带来 GPT-4.1 测评！直接说结论：

Gemini-2.5-Pro 仍然领先榜首 GPT-4.1 大概与 Qwen-2.5-Max 相当, 甚至在我的测试集里面是不如 OpenAI-O3-mini-high 和 OpenAI-o1 的 GPT-4.1-mini 则与老的 DeepSeek-V3 差不多, 或者说, 是一个价格便宜的 GPT-4.5 至于 GPT-4.1-nano, 甚至打不过文心一言, 就…别用了吧

分项成绩： 20小球物理模拟测试 GPT-4.1 代码运行的质量是不错的, 但是问题是, 小球的摩擦并没有带来小球的旋转, GPT-4.1-mini 也是同样问题而 GPT-4.1-nano 则是只剩一个小球

mandelbrot-set-meet-libai 测试 GPT-4.1 的结果主要问题是颜色弄反了, 以及图形渲染的有点大 GPT-4.1-mini 则因为没有全屏渲染扣了分数 GPT-4.1-nano 则指令遵循都有一些问题了, 包括内部全都填充了文本, 中心不正确, 性能太低等等

火星任务测试, 这个就惨不忍睹了, GPT-4.1 渲染的轨道和飞行器执行窗口完全不正确 GPT-4.1-mini 则连星球和飞船都没有至于 GPT-4.1-nano, 抱歉, 生成的代码跑不起来, 报错了

太阳系模拟测试, 这个也很完蛋, GPT-4.1 把水星与太阳重叠了. 而 GPT-4.1-mini 得分反而比较高, 没有什么太大的失误. GPT-4.1-nano, 它… 只画了几个圆圈就交卷了.

总结时间，没啥新鲜玩意, 甚至这次发布的 GPT-4.1 这三个模型只支持 API 调用, ChatGPT 是没办法用的.

给我的感觉更像是用来应对 Gemini-2.5-Pro/Claude-3.7-Sonnet 的产物.

另外, 好的一点是, 发布会场上 Windsurf 的 CEO 乱入, 宣布在本周 windsurf 可以免费使用 GPT-4.1. 有需要的同学可以关注下.

天梯地址：github.com/KCORES/kcores-llm-arena