LLM / MLLM

LLM / MLLM とは？

LLMは、ものすごくざっくり言えばChatGPTのように、文章を読んで文章で返すAIのことです。

MLLMは、そこに画像なども入力できるようになったLLMです。その名の通り「マルチモーダル」LLMということですね。

ComfyUIで何に使う？

ComfyUIでのLLMは、対話を楽しむというより、画像生成モデルへ渡すバトンを作る「裏方」として使うことが多いです。

プロンプトの拡張・翻訳
- 人間の雑な指示を、AIが理解しやすい詳細な英語プロンプトへ膨らませる
タグ生成・画像キャプション
- 画像を見せて、その画像を説明するタグや文章を出力させます
- 学習用キャプションにしたり、これをプロンプトとして再生成したりもできますね
物体検出・セグメンテーション
- MLLMの中にはより専門的なタスクを行えるものもあります
- 特にMLLMを使った物体検出は、自然文で対象を指定できるため重宝します

ComfyUIで使う4つの方法

ComfyUIは画像生成に特化したエンジンなので、LLMを動かす機能は限定的です。仕組みが全く違いますしね。

そのため、基本的にはコアノード・カスタムノード・外部との連携で使います。

TextGenerate ノード

画像生成で使っているテキストエンコーダを、LLM/MLLMとして使えるようにしようと、最近コアノードとして追加されたものです。

ComfyUI上のコードだけで無理矢理動かしているため、llama-cppといった専用のエンジンに比べると速度も機能も数段落ちます。

もちろん、コアで動かせるというだけで素晴らしくはありますが、現状はまだおすすめできるものではありません。

TextGenerate_gemma3.json

{
  "id": "cc2eec2f-681d-45b7-a301-a8f315a9bce8",
  "revision": 0,
  "last_node_id": 7,
  "last_link_id": 6,
  "nodes": [
    {
      "id": 2,
      "type": "CLIPLoader",
      "pos": [
        729.6315004012546,
        764.4307765124615
      ],
      "size": [
        270,
        106
      ],
      "flags": {},
      "order": 0,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "CLIP",
          "type": "CLIP",
          "links": [
            1
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.17.0",
        "Node name for S&R": "CLIPLoader"
      },
      "widgets_values": [
        "gemma_3_12B_it_fp8_scaled.safetensors",
        "stable_diffusion",
        "default"
      ],
      "color": "#432",
      "bgcolor": "#653"
    },
    {
      "id": 3,
      "type": "LoadImage",
      "pos": [
        467.40009544257674,
        931.5659151585422
      ],
      "size": [
        270,
        326
      ],
      "flags": {},
      "order": 1,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            4
          ]
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.18.0",
        "Node name for S&R": "LoadImage"
      },
      "widgets_values": [
        "000032_00007_.png",
        "image"
      ]
    },
    {
      "id": 4,
      "type": "PreviewAny",
      "pos": [
        1496.5240313386585,
        764.4307765124615
      ],
      "size": [
        286,
        154
      ],
      "flags": {},
      "order": 4,
      "mode": 0,
      "inputs": [
        {
          "name": "source",
          "type": "*",
          "link": 3
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.18.0",
        "Node name for S&R": "PreviewAny"
      },
      "widgets_values": [
        null,
        null,
        null
      ]
    },
    {
      "id": 5,
      "type": "ResizeImageMaskNode",
      "pos": [
        762.4053115790771,
        932.9639654966344
      ],
      "size": [
        236.556640625,
        106
      ],
      "flags": {},
      "order": 2,
      "mode": 0,
      "inputs": [
        {
          "name": "input",
          "type": "IMAGE,MASK",
          "link": 4
        }
      ],
      "outputs": [
        {
          "name": "resized",
          "type": "IMAGE",
          "links": [
            5
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.18.0",
        "Node name for S&R": "ResizeImageMaskNode"
      },
      "widgets_values": [
        "scale total pixels",
        0.25,
        "nearest-exact"
      ]
    },
    {
      "id": 1,
      "type": "TextGenerate",
      "pos": [
        1056.12688558396,
        764.4307765124615
      ],
      "size": [
        400,
        300
      ],
      "flags": {},
      "order": 3,
      "mode": 0,
      "inputs": [
        {
          "name": "clip",
          "type": "CLIP",
          "link": 1
        },
        {
          "name": "image",
          "shape": 7,
          "type": "IMAGE",
          "link": 5
        }
      ],
      "outputs": [
        {
          "name": "generated_text",
          "type": "STRING",
          "links": [
            3
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.17.0",
        "Node name for S&R": "TextGenerate"
      },
      "widgets_values": [
        "Please describe this image in detail in 200 characters",
        256,
        "on",
        0.7,
        64,
        0.95,
        0.05,
        1.05,
        0
      ],
      "color": "#232",
      "bgcolor": "#353"
    }
  ],
  "links": [
    [
      1,
      2,
      0,
      1,
      0,
      "CLIP"
    ],
    [
      3,
      1,
      0,
      4,
      0,
      "STRING"
    ],
    [
      4,
      3,
      0,
      5,
      0,
      "IMAGE"
    ],
    [
      5,
      5,
      0,
      1,
      1,
      "IMAGE"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "ds": {
      "scale": 1.1,
      "offset": [
        -258.6635250536924,
        -464.0999220954758
      ]
    },
    "frontendVersion": "1.41.21",
    "VHS_latentpreview": false,
    "VHS_latentpreviewrate": 0,
    "VHS_MetadataImage": true,
    "VHS_KeepIntermediate": true
  },
  "version": 0.4
}

対応しているモデル

Gemma 3
Qwen3
Qwen-3.5

ComfyUIカスタムノード

画像生成モデルと同じように、モデルファイルをダウンロードして自分のPCで動かす方法です。

キャプション生成や物体検出など、特定のタスクに特化した軽量モデルがメインになります。

対応している代表的なモデル

外部LLMサーバ連携

LLMの推論は Ollama や LM Studio といった「専門のエンジン」に任せて、ComfyUI からは API 経由で叩く方法です。

同じ PC で動かすなら結局 VRAM の取り合いになるのは変わりませんが、推論環境を ComfyUI の外に切り離せる のが最大のポイントです。

ComfyUI 側の依存関係を汚さずに済むので、メンテナンス性が高いです
別のPCで動かしてネットワークごしに連携すれば、VRAMの奪い合いも解消できます

→ 外部LLMサーバ連携

公式の課金APIノード

いわゆるChatGPT や Gemini といったクローズドなサービスを、API経由で呼び出すComfyUI公式ノードです。

身も蓋もないことを言えば、ローカルモデルより遥かに賢く、そして速いです。

PC の負荷が完全にゼロ。画像生成を回しながら裏でプロンプトを練らせても、生成速度に一切影響しません
ただし、当然従量課金が必要なのと、NSFW（成人向け）な内容はガードレールに引っかかって拒否されるため、注意は必要です

→ APIノード

余談：実はすでに使っている？

最近の画像生成モデル(Qwen-Image や Z-image など)では、プロンプトを理解するためのテキストエンコーダとして、中身に Qwen や Gemma といった MLLM そのものを内蔵しています。

テキストプロンプトや参照画像を理解して画像生成・編集につなげるために使っていますが、逆に言えば、そのためにしか使っていない贅沢な状況ともいえます。
これを直接MLLMとして使えるようにできると、面白いんですけどね…

LLM / MLLM

LLM / MLLM とは？

ComfyUIで何に使う？

ComfyUIで使う4つの方法

TextGenerate ノード

ComfyUIカスタムノード

外部LLMサーバ連携

公式の課金APIノード

余談：実はすでに使っている？

jsonコピーボタンとは？

修正・誤字報告

記事リクエスト

感想・その他

ありがとうございます