小米 3小时前刚刚发布了四个模型!
MiMo-7B-Base 是基础模型 MiMo-7B-RL-Zero 是基于基础模型训练的 RL 模型 (强化学习) MiMo-7B-SFT 是基于基础模型训练的 SFT 模型 (监督式微调) MiMo-7B-RL 是基于 SFT 模型再 RL 的模型

这么反复炼丹,最终 MiMo-7B-RL 在 MATH-500 数学测试上打了个 95.8 的逆天分数… 顺便 Claude-3.5-Sonnet-1022 的分数是 78.3

当然感觉 MATH-500 略野的同学可以参考 AIME 2025 这个认可度高的数学水平测试,MiMo-7B-RL 是 55.4 分, 作为对比,昨天刚发布的 Qwen3-4B 是 65.6 分
模型地址:huggingface.co/XiaomiMiMo/MiMo-7B-SFT

0