Unsloth 刚刚发布了一个强化学习小教程

教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。

You must log in or register to comment.