o3, o4-mini, o4-mini-high 评测来啦!
KCORES 大模型竞技场为大家带来昨晚发布的 OpenAI o3, o4-mini, o4-mini-high 大模型编程能力测试!
直接说结论:
OpenAI 可能要掉出第一梯队了

OpenAI-o4-mini-high 综合得分最高,排名第七,不及 Google Gemini-2.5, Anthropic Claude 全家桶, DeepSeek 全家桶。甚至连 DeepSeek-R1 都打不过 OpenAI-o3 则排名第14,夹在 Grok-3-Reasoning 和 Gemini-2.0-Flash-Thinking 中间,是不如 Qwen-2.5-Max 的. 跟别提 DeepSeek 了 OpenAI-o4-min 则夹在了 Grok-3 与 Grok-2 中间,打不过老 DeepSeek-V3
具体子项:
20小球弹跳测试: 这三个模型中最好的是 OpenAI-o3,扣分点主要是旋转过快,其次是OpenAI-o4-mini-high小球中的数字不旋转,最差的是 OpenAI-o4-mini 小球像煮过火的汤圆,黏在了一起。




mandlbrot-set-meet-libai 测试: 这三个模型中最好的是 OpenAI-o4-mini-high,没有犯任何错误,但是渲染性能太差。其次是 OpenAI-o3,主要问题是渲染过大导致的扣分。最后是 OpenAI-o4-mini,颜色渲染反了,以及左上角指示器出现了问题。




火星任务测试: 这三个模型都完成得很差,其中,OpenAI-o4-mini-high 相对较好,但还是足够离谱,这个项目是写 python,结果它用 python 输出了个 html,然后用 html 展示动画… 关键是,这个炫技出来的演示效果并不好。其次是 OpenAI-o3 ,python 渲染出来的有问题,鼠标必须拖动画面才能看到演示。不然就看不到。最差的是 OpenAI-o4-mini。三次机会输出的代码均有问题无法运行。



太阳系模拟测试: 得分最高的是 OpenAI-o4-mini-high,仅因为标签遮挡扣了1分。其次是 OpenAI-o4-mini,把背景色弄成了白色,导致展示效果不好的扣分,最后是 OpenAI-o3,FPS 计算错误导致了扣分。




总结:
OpenAI 现在压箱底就剩 o3-pro 了。这次没有发,要是这个也不行…就…[苦涩]
评测是开源的,地址:GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
William70049 days ago可能是刷分了或者没有对这类任务优化,还是要等更多实测才能确定。