プロンプト生成・編集とは?

プロンプトしかまともに触れるパラメータが無かった頃、プロンプトエンジニアリングや「呪文」という言葉が流行しました(懐かしいですね)。

現在の自然文プロンプトと比べると、Stable Diffusion 1.5向けのプロンプトは、タグを羅列した呪文のようなものでした。モデル側の理解力も低く、実際の出力を見ながらプロンプトを試行錯誤する必要があったのです。

ただ、これを毎回人間が書くのは手間ですし、どうしても職人芸になっていきます。ここをLLMに肩代わりさせようとしたものが、このページで言う「プロンプト生成・編集」です。


Stable Diffusion時代のプロンプト生成

Stable Diffusion / SDXL世代のモデルは、自然文をうまく理解できず、カンマ区切りのタグを連ねる書き方が基本でした。

masterpiece, (best quality:1.05), 1girl, blue hair, …

似た意味の単語を並べたり、モデルの学習に使われたテキストのクセに寄せたり……といった工夫をしていましたが、「AI寄りの書き方」を、毎回手で組み立てるのは面倒です。

そこで登場したのが、「雑に書いたプロンプトをStable Diffusion風のタグ列に変換する」専用モデルです。

代表例

  • dart

    • Danbooruタグ列を生成する軽量モデル。ざっくりしたタグや説明を渡すと、Stable Diffusion向きの濃いタグ列にしてくれます。
  • Qwen 1.8B Stable Diffusion Prompt

    • SD用プロンプト生成(日本語→英語タグ列など)に特化した小さめのQwen系モデル。

どちらも「人間に読みやすいかどうか」ではなく、SD1.5 / SDXLが扱いやすい形式のプロンプトを吐くことに特化した道具です。


最近のモデルとプロンプト

FLUXのようなDiT系モデルや、最近の画像編集モデルは、テキストエンコーダがT5やQwenといったLLMベースのテキストエンコーダになりました。

そのおかげで、Stable Diffusion時代と比べると自然文の解釈力ははるかに上がっており、いわゆる「呪文プロンプト」のようなテクニックはほとんど不要になりました。

一方で、「雑に書いても安定して良い結果が出る」わけでもありません。

人間相手でも同じです。下のような要素を完結に説明することが良い監督の仕事といえるでしょう。

  • 距離・画角・焦点距離・時間帯・枚数といった定量的な情報
  • 背景・構図・ライティング・スタイル・表情といった要素ごとの指定

とはいえ、毎度これを手書きするのは面倒なので、ChatGPTなどのLLMを使います。「この日本語プロンプトをFLUX.2用に詳しくして」「構図・ライティング・カメラ情報を足して整形して」「このプロンプトをQwen-Image用に整形して」といった雑な依頼でも、プロンプトの密度を押し上げるには十分です。

画像生成モデルによっては専用のLLMを用意している場合もありますが、そこまで大きく改善されるわけではありません。あくまで画像生成モデルの性能のほうが重要です。


ComfyUIでの運用

ComfyUIでローカルに動かせるLLMもいくつかありますが、APIノードでGeminiやChatGPTを呼ぶことも検討してみてください。

Z-Image_Gemini-3.json

私自身、ローカルモデルにこだわりたい人間のひとりですが、正直なところ、画像生成モデルを動かすよりも、そこそこの品質のLLMをローカルで常用するほうがPCスペック的には厳しい場合が多いです。

ありがたいことに、LLMのAPI利用料金はかなり安いです。はるか前に購入した5ドルのクレジットをいまだに使い切れていません(´・ω・`)