开源自回归文生图模型来啦!——Lumina-Image-2.0

这个模型只有7.88B (但是官方说运行至少要33.8 GB显存,推荐80G显存…),它的意义更多是统一了广泛的图像生成任务,包括文本到图像生成、图像对生成、主题驱动生成、多轮图像编辑、可控生成和密集预测。

下面是我的测试结果:

第一张图的 prompt (测试还原与文本): 生成一个猫娘,有着粉红色头发,带着黑色眼镜,面带微笑,穿着黑色的JK制服。左手做出扶眼镜的动作,右手抱着一本书,书的封面写着 Advanced Programming in the Unix Environment。

第二张图的 prompt(测试风格迁移): 生成一个吉卜力工作室风格的meme图片,画面左边是两个女人,画面右侧是一只猫咪在一个空盘子面前。画面左侧的女人一头金发,伸出手指做出指责画面右侧的猫咪,另一个女人则做出鄙视的表情

地址:github.com/Alpha-VLLM/Lumina-mGPT-2.0 模型地址:huggingface.co/Alpha-VLLM/Lumina-mGPT-2.0 在线demo: huggingface.co/spaces/Alpha-VLLM/Lumina-Image-2.0

1
message-square
2
  • William7004
    22 days ago

    应该叫做Lumina-mGPT 2.0,Lumina-Image-2.0是另一个模型,不过开发方相同,应该是改成了带图像编辑的版本。算是有对标Gemini2.0 Flash的图像生成和编辑功能的开源方案了。

    • William7004
      22 days ago

      两个模型架构不同。demo上的是Lumina-Image-2.0。