雑コラのリファインとは?
雑コラのリファインは、その名の通り「雑なコラージュ画像」を作り、それを指示ベース画像編集モデルに渡して自然な一枚絵に仕上げてもらうテクニックです。
先に自分でオブジェクトを配置し、あとからモデルに「きれいにして」「自然な写真にして」と仕上げを任せることで、レイアウトの主導権を人間側に残したまま AIの力を使うことができます。
なぜSubject転送ではなく「画像編集」なのか
指示ベース画像編集モデルの代表であるFlux Kontextは、もともと「1枚の画像+テキストプロンプト」を入力して編集させるものでした。
つまるところ、「参照画像を見て、別の画像に同じSubjectを登場させる」といった使い方はそもそも機能として無かったのです。
一方で、「入力画像を編集して描き直す」能力は非常に高く、単に色を変えるとか、オブジェクトを消すといったことよりも大幅に複雑なことができます。
そこでこう思いました。
雑コラを作り、それを「自然な写真にして」「一枚絵として違和感のないように」と指示すれば 画像編集タスクとしてSuject転送を扱えるのでは? と
実際、これがうまくいき、コミュニティでも楽しんで使われています。
雑コラリファインの利点
最新の指示ベース画像編集モデルでは、複数枚の画像入力に対応していますが、それでも、雑コラのリファインには、まだいくつか利点があります。

位置情報をそのまま保持できる
「画像1をここに配置してほしい」とテキストで書くのではなく、そもそも「画像1がそこに置かれた状態の画像」を入力するため、モデルは、その配置を前提に「自然に見えるように整える」だけでよくなります。
テキストでレイアウトを指示するというのはかなり難しいので、明確な強みといえるでしょう
参照の数に制限がない
Subject転送系の手法では、アーキテクチャ上の都合で「入力できる参照画像の数」に制約があることが多いです。多くの画像を入力できても推論時間が伸びてしまいます。
雑コラであれば、極端な話、キャンバスに載せられるだけいくつオブジェクトを貼っても構いません。そのすべてを「まとめて整える」編集タスクとして扱えます。
専用LoRAについて
雑コラのリファインをより安定させるために、専用のLoRAがいくつか開発されました。ここでは紹介まで。