Qwen-Imageとは?

Qwen-Image は、中国 Alibaba 系の Qwen チームが開発した画像生成モデルです。

テキストエンコーダにマルチモーダル LLM の Qwen2.5-VL を使っており、T5 や Gemma を使っているモデルに比べると、プロンプトの理解力は頭ひとつ抜けています。

さらに、Flux.1 dev と違ってベースが蒸留モデルではないため学習しやすく、姉妹モデルである Qwen-Image-Edit と合わせて、LoRA や Lightning 系の周辺エコシステムが充実しているのも特徴です。


推奨解像度

Qwen-Image は 1.5M〜1.8M ピクセル前後が推奨です。

  • 1:1 … 1328 × 1328
  • 4:3 … 1472 × 1104
  • 3:2 … 1584 × 1056
  • 16:9 … 1664 × 928

モデルのダウンロード

📂ComfyUI/
└── 📂models/
    ├── 📂diffusion_models/
    │   └── qwen_image_fp8_e4m3fn.safetensors
    ├── 📂text_encoders/
    │   ├── qwen_2.5_vl_7b_fp8_scaled.safetensors
    │   └── Qwen2.5-VL-7B.gguf    ← gguf を使う場合のみ
    ├── 📂unet/
    │   └── qwen-image.gguf       ← gguf を使う場合のみ
    └── 📂vae/
        └── qwen_image_vae.safetensors

text2image

Qwen-Image.json
  • サンプラーは euler または res_multistep が使われることが多いです。

ControlNet(InstantX)

Qwen-Image 向けの ControlNet モデルはいくつかありますが、使い勝手が良いので、ControlNet-Union として提供されている InstantX ベースのものを紹介します。

モデルのダウンロード

📂ComfyUI/
└── 📂models/
    └── 📂controlnet/
        ├── Qwen-Image-InstantX-ControlNet-Union.safetensors
        └── Qwen-Image-InstantX-ControlNet-Inpainting.safetensors

workflow

Qwen-Image-InstantX-ControlNet-Union.json
Qwen-Image-InstantX-ControlNet-Inpainting.json

Lightning(高速生成 LoRA)

Qwen-Image-Lightning は、Qwen-Image を 4 / 8 steps で回せるように蒸留した LoRA セット です。

ほとんど劣化なしで大幅にステップ数を減らせるため、かなり多くの workflow で採用されています。

モデルのダウンロード

📂ComfyUI/
└── 📂models/
    └── 📂loras/
        ├── Qwen-Image-Lightning-4steps-V2.0-bf16.safetensors
        └── Qwen-Image-Lightning-8steps-V2.0-bf16.safetensors

workflow

Qwen-Image_lightning_8steps.json
  • LoraLoaderModelOnly ノードで Lightning LoRA を読み込みます。
  • KSamplersteps を 4 または 8、CFG を 1.0 に設定します。