绘画模型中Flux.1细节较好但光照表现差,后来使用Hunyuan Video生成图片,光照表现好但细节差不少。这个月试了SANA系列和CogView4,细节比Hunyuan Video好一点但还是比不上Flux.1,部分提示词表现差。最后决定找Flux.1的微调模型,Pixelwave是FLux.1 dev的微调模型,基本满足要求。
视频模型开始时主要探索效果更好的模型试了Wan2.1 14b,在3070m生成视频单帧要90秒。后面希望找速度更快的模型试了Framepack,官方的速度虚标了,实际上主要改善了固定场景长视频生成效果,速度相比原版Hunyuan Video I2V 480p改进不明显。LTX Video推出0.9.6版本也测试了,单帧用时不到1秒但只适用于静态场景和汽车题材的图生视频且画面不太稳定。Fast Hunyuan是Hunyuan Video的步数蒸馏版本,由于Comfyui官方文档和Kijai的Hunyuan Video节点均未给出工作流,之前测试时没有加lora,后来看到有文章提到才加上,实测步数为8时画质与原版差距不大。当前版本Comfyui要把lora强度设为-1。在3070m生成分辨率为1136x640的视频单帧用时约8.3秒。目前决定把Fast Hunyuan作为主力视频模型。至于为什么没有Wan2.1的步数蒸馏版本,FastVideo开发者在issue上回应说程序还在修改。如果成功蒸馏Wan2.1 1.3b,考虑出片率优势,实际用时能降到与LTX Video接近并且适用性更好。

3
message-square
0