来看新模型——INTELLECT-2

这个模型最大的特点是，他是使用全球社区免费的 GPU 训练的，而为了实现这一点，使用了 prime-rl 框架，这是个分布式强化学习框架，并且集成了魔改版 GRPO，用于改善训练稳定性。

不过，这个模型并不是从0训练的，而是基于QWQ-32B。而它的得分，跟QWQ-32B差不多…所以炼了个寂寞？可能 prime-rl 这个框架更有意义一些。