Flux.1 Kontextとは?
Flux.1 Kontext は、Flux.1 をベースにした指示ベース画像編集モデルです。
nano bananaを始めとするAI画像編集というタスクの流行に火をつけたのは間違いなくこのモデルでしょう。
Flux.1 と同じように pro/max/devの3つのバリエーションがありますが、ローカルで使用出来るのは dev のみです。
指示ベース画像編集とは?
画像とテキストの指示を入力すると、その指示に従って画像を編集してくれるモデルを、このサイトでは 指示ベース画像編集モデル と呼んでいます。
例えば、写真に写っている女性の髪を赤くしたいと思ったとします。
これまでは、髪をマスクし、髪型は変更したくないのでControlNet Cannyを追加、その上で「赤い髪の女性の写真」などというプロンプトで inpainting をしていました。
指示ベース画像編集ならば簡単です。画像をモデルに渡して「女性の髪を赤くして」とプロデューサーがデザイナーに頼むように指示するだけです。
表情を変えたり、邪魔なオブジェクトを削除したり、絵柄を変換したり。
全て、ひとつのモデルとプロンプトだけで実現できてしまうのです。
モデルのダウンロード
Kontext でも、基本的な構成は通常の Flux.1 と同じです。
-
diffusion_models
-
clip / T5 / VAE
-
gguf(任意)
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ └── flux1-dev-kontext_fp8_scaled.safetensors
├── 📂clip/
│ ├── clip_l.safetensors
│ └── t5xxl_fp8_e4m3fn_scaled.safetensors
├── 📂vae/
│ └── ae.safetensors
└── 📂unet/
└── flux1-kontext-dev.gguf ← gguf を使う場合のみ
workflow(基本形)
Kontext の workflow 自体は、通常の Flux.1 にReferenceLatent を追加しただけのシンプルな構成です。

- 🟪
flux1-dev-kontext_fp8_scaled.safetensorsを読み込みます。 - 🟩
FluxKontextImageScaleノードで、入力画像を Kontext 向けの解像度にリサイズします。- Flux 推奨の解像度があるのですが、その中から、アスペクト比が近い解像度が自動的に選ばれます。
- 🟩 リサイズした画像を latent に変換し、
ReferenceLatentに接続します。
プロンプトの書き方
基本的に公式のプロンプトガイドに従います。
とはいえ、特別な記法があるわけではありません。 「◯◯を△△して」 という形で、やりたいことをそのまま英語で書けばだいたい動いてくれます。
もし、変更したくないところまで変わってしまうとき(例:髪型だけ変えたいのに背景まで変わる)には、次のように「変えてほしくない条件」を明示します。
- e.g.
Keep the person's pose, position, and size the same.
とはいえ、モデルの性能として、指示にうまく従わないこともよくあります。
まだまだ、あまり多くを求めすぎてはいけません。
できること
画像編集
Change the hair to a messy blonde bob.
絵柄変換
This character is made out of Lego blocks.
オブジェクト除去
Remove the woman
テキスト置き換え
Replace [OPEN] with [FLUX]
サブジェクト転送
A photo of a girl who received a stuffed elephant as a Christmas present.
ガイドによる位置指定
Add a sailing ship to the box position.
雑コラのリファイン
手動で作ったコラージュ画像を 溶け込ませる という編集します。
Transform the flat duck sticker into a realistic plush duck toy with the same blue hat and place it in the woman’s arms so she is naturally hugging it. Also turn the outlined pendant lamp into a realistic lamp, removing the white sticker edges and matching the scene’s lighting, color, and perspective.
この能力を底上げするLoRAもあります。