给大家带来全网最速 DeepSeek-V3-0324 写代码实测！

给大家带来全网最速 DeepSeek-V3-0324 写代码实测！

给大家带来全网最速 DeepSeek-V3-0324 写代码实测！

直接说结论—— 超越 DeepSeek-R1！甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型！

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1)，仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。

四项评测中：

20 小球碰撞测试 (图2)，肉眼可见的进步，之前 DeepSeek-V3 的小球挤成一团，现在物理运动模拟得非常好，仅因掉出了7边形扣了5分，项目排名第5 (图3)

mandelbrot-set-meet-libai 测试 (图4)，没有过多变化，分数较DeepSeek-V3 低了2分，主要还是将渲染方向搞反了以至于拖累了渲染性能，但是完成度可以看到比之前高很多。项目排名第12 （图5）

火星任务测试（图6），巨大的提升，这次星球，图例均渲染正确，甚至发射和返回窗口计算也有很大进步！项目排名第3 （图7）

九大行星模拟测试（图8），这个是史诗级提升，这是测试的25个模型中，唯一一个画了土星环的大模型！（画土星环就如同画时钟要写3，6，9，12. 画苹果要有个梗一样）项目排名第16，主要还是地球轨道周期没写对（图9）

总体而言，DeepSeek-V3-0324 能力十分可怕，甚至这还都不是 DeepSeek-V4，更不是 DeepSeek-R2 ！我现在十分期待 DeepSeek-R2 的发布了！

评测是开源的哦，地址：github.com/KCORES/kcores-LLM-Arena

5

You must log in or register to comment.

ajar
1 year ago
这进步太猛了，火星发射任务那里轨道倾角貌似还没有别的模型做出来了
JxQggg
1 year ago
我还准备说怎么和我昨天看的B站视频一模一样，原来就是站长发的啊 😄
- karminski-牙医OPMA
  1 year ago
  哈哈哈
Chef
1 year ago
把R1的思考过程作为提示词喂给新的V3，是否会有提升呢？
- karminski-牙医OPMA
  1 year ago
  可以试试，不过我还没来得及测