Qwen 刚刚又发布了 4 个模型,WorldPM-72B,WorldPM-72B-HelpSteer2 ,WorldPM-72B-RLHFLow,WorldPM-72B-UltraFeedback
不过这些模型都是偏好建模模型,你可以简单理解为给其他模型的回答打分的模型。最大的用途是用来监督学习的。官方也说使用这个训练比从0开始训练效果要好。
地址:huggingface.co/Qwen/WorldPM-72B 还有论文:arxiv.org/pdf/2505.10527


0
Qwen 刚刚又发布了 4 个模型,WorldPM-72B,WorldPM-72B-HelpSteer2 ,WorldPM-72B-RLHFLow,WorldPM-72B-UltraFeedback
不过这些模型都是偏好建模模型,你可以简单理解为给其他模型的回答打分的模型。最大的用途是用来监督学习的。官方也说使用这个训练比从0开始训练效果要好。
地址:huggingface.co/Qwen/WorldPM-72B 还有论文:arxiv.org/pdf/2505.10527