来看新模型——INTELLECT-2
这个模型最大的特点是,他是使用全球社区免费的 GPU 训练的,而为了实现这一点,使用了 prime-rl 框架,这是个分布式强化学习框架,并且集成了魔改版 GRPO,用于改善训练稳定性。
不过,这个模型并不是从0训练的,而是基于QWQ-32B。而它的得分,跟QWQ-32B差不多…所以炼了个寂寞?可能 prime-rl 这个框架更有意义一些。
地址: huggingface.co/PrimeIntellect/INTELLECT-2 技术报告:storage.googleapis.com/public-technical-paper/INTELLECT_2_Technical_Report.pdf


0