强化学习微调要更猛了！刚有个老哥给Unsloth框架的GRPO部分增加了个功能，可以支持函数调用和代理反馈循环。

强化学习微调要更猛了！刚有个老哥给Unsloth框架的GRPO部分增加了个功能，可以支持函数调用和代理反馈循环。

强化学习微调要更猛了！刚有个老哥给Unsloth框架的GRPO部分增加了个功能，可以支持函数调用和代理反馈循环。

简单来讲，这个功能实现了：

被训练模型会根据文档生成自己的问题
然后使用搜索工具在语料库中寻找答案
最后再用其他大的模型作为评判标准来评估自己的回答是否正确
最后通过强化学习（RL）来提高能力

这个方法最大的创新是，增加接口后，就实现了用大模型监督小模型学习，进而不需要人来监督了（实际上为了更好的结果还是要人参与一下）。节省了大量时间。

根据作者的说法，用4090训练了一小时，被训练模型问题回答准确率就从23%上升到了53%。

项目地址：github.com/dCaples/AutoDidact/

而且我看unsloth团队反馈说可以开PR，估计马上就合并到unsloth框架了

1

You must log in or register to comment.