给大家带来全网最速 DeepSeek-V3-0324 写代码实测!

直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型!

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。

四项评测中:

20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3)

mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5)

火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7)

九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9)

总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了!

评测是开源的哦,地址:github.com/KCORES/kcores-LLM-Arena

5
message-square
5
  • JxQggg
    5 days ago

    我还准备说怎么和我昨天看的B站视频一模一样,原来就是站长发的啊 😄

  • ajar
    6 days ago

    这进步太猛了,火星发射任务那里轨道倾角貌似还没有别的模型做出来了

  • Chef
    6 days ago

    把R1的思考过程作为提示词喂给新的V3,是否会有提升呢?