开源自回归文生图模型来啦！——Lumina-Image-2.0

开源自回归文生图模型来啦！——Lumina-Image-2.0

开源自回归文生图模型来啦！——Lumina-Image-2.0

这个模型只有7.88B （但是官方说运行至少要33.8 GB显存，推荐80G显存…），它的意义更多是统一了广泛的图像生成任务，包括文本到图像生成、图像对生成、主题驱动生成、多轮图像编辑、可控生成和密集预测。

下面是我的测试结果：

第一张图的 prompt （测试还原与文本）: 生成一个猫娘，有着粉红色头发，带着黑色眼镜，面带微笑，穿着黑色的JK制服。左手做出扶眼镜的动作，右手抱着一本书，书的封面写着 Advanced Programming in the Unix Environment。

第二张图的 prompt（测试风格迁移）: 生成一个吉卜力工作室风格的meme图片，画面左边是两个女人，画面右侧是一只猫咪在一个空盘子面前。画面左侧的女人一头金发，伸出手指做出指责画面右侧的猫咪，另一个女人则做出鄙视的表情

地址：github.com/Alpha-VLLM/Lumina-mGPT-2.0 模型地址：huggingface.co/Alpha-VLLM/Lumina-mGPT-2.0 在线demo: huggingface.co/spaces/Alpha-VLLM/Lumina-Image-2.0

1

You must log in or register to comment.

William7004
1 year ago
应该叫做Lumina-mGPT 2.0，Lumina-Image-2.0是另一个模型，不过开发方相同，应该是改成了带图像编辑的版本。算是有对标Gemini2.0 Flash的图像生成和编辑功能的开源方案了。
- William7004
  1 year ago
  两个模型架构不同。demo上的是Lumina-Image-2.0。