KCORES 大模型竞技场测试集已经增加到4个了,主打真实世界场景编程测试。
目前最好的编程大模型是什么?直接说结论,👑 Claude-3.7-Sonnet-Thinking 当之无愧, 甚至 Claude 系列都是非常好的选择。
那么除了Claude全家桶,最好的选择是什么?答案是 DeepSeek-R1
OpenAI 系列呢?答案是 OpenAI-o1
Gemini 系列则是 Gemini-2.0-Pro
Grok 嘛…开心那就好
评测视频稍后放出!敬请期待!
测试结果地址:github.com/KCORES/kcores-llm-arena

0