LLM / MLLM とは?

LLMは、ものすごくざっくり言えばChatGPTのように、文章を読んで文章で返すAIのことです。

MLLMは、そこに画像なども入力できるようになったLLMです。その名の通り「マルチモーダル」LLMということですね。


ComfyUIで何に使う?

ComfyUIでのLLMは、対話を楽しむというより、画像生成モデルへ渡すバトンを作る「裏方」 として使うことが多いです。

  • プロンプトの拡張・翻訳
    • 人間の雑な指示を、AIが理解しやすい詳細な英語プロンプトへ膨らませる
  • タグ生成・画像キャプション
    • 画像を見せて、その画像を説明するタグや文章を出力させます
    • 学習用キャプションにしたり、これをプロンプトとして再生成したりもできますね
  • 物体検出・セグメンテーション
    • MLLMの中にはより専門的なタスクを行えるものもあります
    • 特にMLLMを使った物体検出は、自然文で対象を指定できるため重宝します

ComfyUIで使う3つの方法

ComfyUIは画像生成に特化したエンジンなので、コア機能としてLLMを動かすものはありません。仕組みが全く違いますしね。

そのため、基本的にはカスタムノードや外部との連携で使います。

ComfyUI内で完結

画像生成モデルと同じように、モデルファイルをダウンロードして自分のPCで動かす方法です。

キャプション生成や物体検出など、特定のタスクに特化した軽量モデルがメインになります。

Florence2
Florence2

対応している代表的なモデル

外部LLMサーバ連携

LLMの推論は Ollama や LM Studio といった「専門のエンジン」に任せて、ComfyUI からは API 経由で叩く方法です。

同じ PC で動かすなら結局 VRAM の取り合いになるのは変わりませんが、推論環境を ComfyUI の外に切り離せる のが最大のポイントです。

  • ComfyUI 側の依存関係を汚さずに済むので、メンテナンス性が高いです
  • 別のPCで動かしてネットワークごしに連携すれば、VRAMの奪い合いも解消できます

外部LLMサーバ連携

公式の課金APIノード

いわゆるChatGPT や Gemini といったクローズドなサービスを、API経由で呼び出すComfyUI公式ノードです。

Google_Gemini
Google_Gemini

身も蓋もないことを言えば、ローカルモデルより遥かに賢く、そして速い です。

  • PC の負荷が完全にゼロ。画像生成を回しながら裏でプロンプトを練らせても、生成速度に一切影響しません
  • ただし、当然従量課金が必要なのと、NSFW(成人向け)な内容はガードレールに引っかかって拒否されるため、注意は必要です

APIノード


余談:実はすでに使っている?

最近の画像生成モデル(Qwen-Image や Z-image など)では、プロンプトを理解するためのテキストエンコーダとして、中身に Qwen や Gemma といった MLLM そのものを内蔵しています。

テキストプロンプトや参照画像を理解して画像生成・編集につなげるために使っていますが、逆に言えば、そのためにしか使っていない贅沢な状況ともいえます。
これを直接MLLMとして使えるようできると、面白いんですけどね…