强化学习微调要更猛了!刚有个老哥给Unsloth框架的GRPO部分增加了个功能,可以支持函数调用和代理反馈循环。
简单来讲,这个功能实现了:
- 被训练模型会根据文档生成自己的问题
- 然后使用搜索工具在语料库中寻找答案
- 最后再用其他大的模型作为评判标准来评估自己的回答是否正确
- 最后通过强化学习(RL)来提高能力
这个方法最大的创新是,增加接口后,就实现了用大模型监督小模型学习,进而不需要人来监督了(实际上为了更好的结果还是要人参与一下)。节省了大量时间。
根据作者的说法,用4090训练了一小时,被训练模型问题回答准确率就从23%上升到了53%。
项目地址:github.com/dCaples/AutoDidact/
而且我看unsloth团队反馈说可以开PR,估计马上就合并到unsloth框架了

0