Unsloth 刚刚发布了一个强化学习小教程
教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。
地址: docs.unsloth.ai/basics/reinforcement-learning-guide

0
Unsloth 刚刚发布了一个强化学习小教程
教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。
地址: docs.unsloth.ai/basics/reinforcement-learning-guide