Qwen 刚刚又发布了 4 个模型，WorldPM-72B，WorldPM-72B-HelpSteer2 ，WorldPM-72B-RLHFLow，WorldPM-72B-UltraFeedback

Qwen 刚刚又发布了 4 个模型，WorldPM-72B，WorldPM-72B-HelpSteer2 ，WorldPM-72B-RLHFLow，WorldPM-72B-UltraFeedback

Qwen 刚刚又发布了 4 个模型，WorldPM-72B，WorldPM-72B-HelpSteer2 ，WorldPM-72B-RLHFLow，WorldPM-72B-UltraFeedback

不过这些模型都是偏好建模模型，你可以简单理解为给其他模型的回答打分的模型。最大的用途是用来监督学习的。官方也说使用这个训练比从0开始训练效果要好。

地址：huggingface.co/Qwen/WorldPM-72B 还有论文：arxiv.org/pdf/2505.10527

1

You must log in or register to comment.