卧槽,给 QwQ-32B 赋能 (x 的框架来了!

大家应该还记得我前天放出的 大模型竞技场 弹跳小球的测试视频。

其中 QwQ-32B 的结果是无法让小球弹跳,然后有个老哥看到了我的视频,写了个项目,通过控制最后 </think> 标签结束的概率,来让模型超级努力思考,进而提升了模型的能力。能让QwQ-32B 写出小球弹跳的视频了!(当然旋转还是有点问题)

项目地址:github.com/and270/thinking_effort_processor

2
message-square
1
  • hqshi
    20 days ago

    感觉超级思考这个真的是非常巧思的思路。我自己做的越狱和倾向诱导测试也用了类似的技巧让诱导大模型