LLM / MLLM とは?
LLMは、ものすごくざっくり言えばChatGPTのように、文章を読んで文章で返すAIのことです。
MLLMは、そこに画像なども入力できるようになったLLMです。その名の通り「マルチモーダル」LLMということですね。
ComfyUIで何に使う?
ComfyUIでのLLMは、対話を楽しむというより、画像生成モデルへ渡すバトンを作る「裏方」 として使うことが多いです。
- プロンプトの拡張・翻訳
- 人間の雑な指示を、AIが理解しやすい詳細な英語プロンプトへ膨らませる
- タグ生成・画像キャプション
- 画像を見せて、その画像を説明するタグや文章を出力させます
- 学習用キャプションにしたり、これをプロンプトとして再生成したりもできますね
- 物体検出・セグメンテーション
- MLLMの中にはより専門的なタスクを行えるものもあります
- 特にMLLMを使った物体検出は、自然文で対象を指定できるため重宝します
ComfyUIで使う3つの方法
ComfyUIは画像生成に特化したエンジンなので、コア機能としてLLMを動かすものはありません。仕組みが全く違いますしね。
そのため、基本的にはカスタムノードや外部との連携で使います。
ComfyUI内で完結
画像生成モデルと同じように、モデルファイルをダウンロードして自分のPCで動かす方法です。
キャプション生成や物体検出など、特定のタスクに特化した軽量モデルがメインになります。

対応している代表的なモデル
- JoyCaption
- Florence-2
- Qwen3 VL
外部LLMサーバ連携
LLMの推論は Ollama や LM Studio といった「専門のエンジン」に任せて、ComfyUI からは API 経由で叩く方法です。
同じ PC で動かすなら結局 VRAM の取り合いになるのは変わりませんが、推論環境を ComfyUI の外に切り離せる のが最大のポイントです。
- ComfyUI 側の依存関係を汚さずに済むので、メンテナンス性が高いです
- 別のPCで動かしてネットワークごしに連携すれば、VRAMの奪い合いも解消できます
公式の課金APIノード
いわゆるChatGPT や Gemini といったクローズドなサービスを、API経由で呼び出すComfyUI公式ノードです。

身も蓋もないことを言えば、ローカルモデルより遥かに賢く、そして速い です。
- PC の負荷が完全にゼロ。画像生成を回しながら裏でプロンプトを練らせても、生成速度に一切影響しません
- ただし、当然従量課金が必要なのと、NSFW(成人向け)な内容はガードレールに引っかかって拒否されるため、注意は必要です
→ APIノード
余談:実はすでに使っている?
最近の画像生成モデル(Qwen-Image や Z-image など)では、プロンプトを理解するためのテキストエンコーダとして、中身に Qwen や Gemma といった MLLM そのものを内蔵しています。
テキストプロンプトや参照画像を理解して画像生成・編集につなげるために使っていますが、逆に言えば、そのためにしか使っていない贅沢な状況ともいえます。
これを直接MLLMとして使えるようできると、面白いんですけどね…