CFG

CFGとは？

ざっくり言えば、CFG（Classifier-Free Guidance）は 「プロンプトにどれだけ強く従わせるか」を決める係数 です。

ただし、CFGが活きるのは、テキストエンコーダがプロンプトをきちんと理解でき、モデルに十分な表現力がある場合に限られます。

プロンプト・モデル・Conditioningの設計が主役で、CFGはあくまで 微調整のつまみ です。

内部では、拡散モデルは「ノイズの予測」を2通り計算しています。

ComfyUIでは、これを次のような式で混ぜ合わせています。

output = negative + guidance_scale × (positive - negative)

ここで guidance_scale が CFGの値 です。

この式が意味するのは、「プロンプトあり」と「プロンプトなし」の予測の差分をどれだけ増幅するか です。

モデルやサンプラーによって最適なCFGの値は異なりますが、とりあえず7〜9 を使っておけばよいでしょう。

CFGを強くすれば、プロンプトの効きを増やすことができると言いましたが、それは

ときのみです。これが出来ないのに、CFGを上げても生成結果は良くなりません。

CFGの中でも、1 という値は少し特別です。先ほどの式に guidance_scale = 1 を代入してみましょう。

output = negative + 1 × (positive - negative)
       = positive

negative の情報が打ち消され、positive だけ が残ります。

このとき起きることは次の2つです。

negative（unconditional）の推論が不要になるため、CFG > 1 のときと比べて ステップあたりの計算量をほぼ半分にできます（実装によります）。

画像生成を高速化する手法はいろいろありますが、最も簡単なのが CFG = 1 を使うこと です。ただし、CFGによるプロンプトの強さ調整ができなくなるため、多くのモデルでは他のパラメータで代替しています。

出力は positive のみになるので、Negative Promptが効かなくなります。
negative 側にどんなテキストを入れても、式の上でキャンセルされてしまうためです。

高速化モデルと呼ばれるものは、大抵がCFG = 1 を前提に学習されています。
このようなモデルでCFGを1より大きな値にすると 壊れた画像が出力されてしまうため、モデルがどのCFG値を想定しているかは、配布ページやドキュメントで確認しておきましょう。