MoonshotAI (月之暗面)2小时前发布了全新的MoE小模型 Moonlight-16B-A3B !这个模型激活参数只有3B!(注意仍然是BF16的)
这个小模型的亮点是使用了Muon优化器,并且优化了Muon本身,使其适应更大的模型训练和提升约2倍的计算效率。
从图1可以看出,Muon的样本效率是AdamW的2倍,并且提升了了性能与训练失败的投入产出比曲线(能个更小的模型更多的数据来训练,提升训练质量)

图2可以看到测评数据几乎全部都领先于其它相同规模的模型(这究竟是算3B打3B还是16B打3B呢…)

0