Diffusion 语言模型又进化啦!

之前我发过很多基于 Diffusion 的大语言模型,大家都知道目前仍然基于 transformer 的大语言模型是主流。而香港大学带来了全新的 Diffusion 语言模型——Dream 7B

这个大模型最大的进步时他是一个推理型的 Diffusion 语言模型。从 benchmark 得分来看,已经在某些项目上能超过同类基于 transformer 的7-8B模型了!

不过截至到我发这篇文章的时候,他们还没上传完毕到 HuggingFace 上面,只是放出了 blog 和代码。如果有新的消息我将第一时间给大家同步

(我之所以关注 Diffusion 语言模型是因为它的潜力巨大,需要的算力相对于 transformer 模型会小很多,并且速度快)

blog地址:hkunlp.github.io/blog/2025/dream/ 代码:github.com/HKUNLP/Dream

#AI生活指南# #ai创造营#

1
message-square
1
  • William7004
    2 days ago

    不过现在小参数量有独显的话更偏向推理模型。不确定扩散语言模型在原理上能否实现推理模型。