什么是杂乱拼贴的优化?

杂乱拼贴的优化,顾名思义,就是制作“杂乱的拼贴图像”,并将其传递给基于指令的图像编辑模型,让其整理成自然的一张画的技巧。

先自己配置对象,然后把“变漂亮”、“变成自然的照片”等收尾工作交给模型,这样就可以在 将布局的主导权保留在人类这边的同时 使用 AI 的力量。


为什么不是 Subject 转移而是“图像编辑”

Flux Kontext 是基于指令的图像编辑模型的代表,原本是输入“1 张图像+文本提示词”让其进行编辑的东西。 归根结底,“看参考图像,让相同的 Subject 在别的图像中登场”这样的用法本来就没有作为功能存在。

另一方面,它“编辑并重绘输入图像”的能力非常高,能够做比单纯改变颜色,或消除对象要复杂得多的事情。

于是我这样想了。

如果制作杂乱拼贴,并指示它“变成自然的照片”、“作为一张画不要有违和感”,能不能把 Suject 转移当作图像编辑任务来处理呢?

实际上,这进行得很顺利,社区也愉快地使用着。


杂乱拼贴优化的优点

在最新的基于指令的图像编辑模型中,虽然支持多张图像输入,但尽管如此,杂乱拼贴的优化还是有几个优点。

可以原样保持位置信息

与其用文本写“希望把图像 1 配置在这里”,不如本来就输入“图像 1 被放在那里的状态的图像”,模型只需以该配置为以此为前提“整理得看起来自然”即可。

用文本指示布局是相当困难的,所以这可以算是明确的优势吧

没有参考数量的限制

在 Subject 转移系的手法中,由于架构上的原因,往往对“能输入的参考图像的数量”有限制。即使能输入很多图像,推断时间也会变长。

如果是杂乱拼贴,说极端点,只要能放在画布上,贴多少个对象都无所谓。可以将这所有的都作为“汇总整理”的编辑任务来处理。


关于专用 LoRA

为了让杂乱拼贴的优化更稳定,开发了几个专用的 LoRA。这里仅作介绍。