o3, o4-mini, o4-mini-high 评测来啦！

KCORES 大模型竞技场为大家带来昨晚发布的 OpenAI o3, o4-mini, o4-mini-high 大模型编程能力测试！

直接说结论：

OpenAI 可能要掉出第一梯队了

OpenAI-o4-mini-high 综合得分最高，排名第七，不及 Google Gemini-2.5, Anthropic Claude 全家桶, DeepSeek 全家桶。甚至连 DeepSeek-R1 都打不过 OpenAI-o3 则排名第14，夹在 Grok-3-Reasoning 和 Gemini-2.0-Flash-Thinking 中间，是不如 Qwen-2.5-Max 的. 跟别提 DeepSeek 了 OpenAI-o4-min 则夹在了 Grok-3 与 Grok-2 中间，打不过老 DeepSeek-V3

具体子项：

20小球弹跳测试：这三个模型中最好的是 OpenAI-o3，扣分点主要是旋转过快，其次是OpenAI-o4-mini-high小球中的数字不旋转，最差的是 OpenAI-o4-mini 小球像煮过火的汤圆，黏在了一起。

mandlbrot-set-meet-libai 测试：这三个模型中最好的是 OpenAI-o4-mini-high，没有犯任何错误，但是渲染性能太差。其次是 OpenAI-o3，主要问题是渲染过大导致的扣分。最后是 OpenAI-o4-mini，颜色渲染反了，以及左上角指示器出现了问题。

火星任务测试：这三个模型都完成得很差，其中，OpenAI-o4-mini-high 相对较好，但还是足够离谱，这个项目是写 python，结果它用 python 输出了个 html，然后用 html 展示动画… 关键是，这个炫技出来的演示效果并不好。其次是 OpenAI-o3 ，python 渲染出来的有问题，鼠标必须拖动画面才能看到演示。不然就看不到。最差的是 OpenAI-o4-mini。三次机会输出的代码均有问题无法运行。

太阳系模拟测试：得分最高的是 OpenAI-o4-mini-high，仅因为标签遮挡扣了1分。其次是 OpenAI-o4-mini，把背景色弄成了白色，导致展示效果不好的扣分，最后是 OpenAI-o3，FPS 计算错误导致了扣分。

总结：

OpenAI 现在压箱底就剩 o3-pro 了。这次没有发，要是这个也不行…就…[苦涩]

评测是开源的，地址：GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team