JoyCaption

什么是 JoyCaption？

JoyCaption 是，为了从图像生成说明文的 VLM（Visual Language Model）。

以实写・动漫・数字艺术等，广泛种类的图像为对象可以生成高精度的说明文。尤其是即使是 NSFW 图像也不检阅进行处理，因此即使在更高性能的通用 MLLM 登场的现在，作为“说明文专用模型”也有人气。

由于是以 LLaVA 系的多模态模型为基础，虽然与 tagger 相比不能说是轻量，但在 ComfyUI 的节点作为容易组装进本地的图像生成管道有其简便性。

自定义节点

1038lab/ComfyUI-JoyCaption

JoyCaption 节点

从被输入的图像生成说明文。

JoyCaption.json

{
  "id": "ded66799-2c80-4180-a0ff-fa576917dc55",
  "revision": 0,
  "last_node_id": 8,
  "last_link_id": 5,
  "nodes": [
    {
      "id": 3,
      "type": "JC_ExtraOptions",
      "pos": [
        -23.901104900351015,
        618.0458046497705
      ],
      "size": [
        400,
        736
      ],
      "flags": {},
      "order": 0,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "extra_options",
          "type": "JOYCAPTION_EXTRA_OPTIONS",
          "links": [
            1
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfyui-joycaption",
        "ver": "2.0.2",
        "Node name for S&R": "JC_ExtraOptions"
      },
      "widgets_values": [
        false,
        true,
        true,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        false,
        ""
      ],
      "color": "#432",
      "bgcolor": "#653"
    },
    {
      "id": 5,
      "type": "PreviewAny",
      "pos": [
        682.6804194740781,
        537.0944700512295
      ],
      "size": [
        335.4273478587527,
        226.0551465063861
      ],
      "flags": {},
      "order": 3,
      "mode": 0,
      "inputs": [
        {
          "name": "source",
          "type": "*",
          "link": 3
        }
      ],
      "outputs": [],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.3.76",
        "Node name for S&R": "PreviewAny"
      },
      "widgets_values": [
        null,
        null,
        null
      ]
    },
    {
      "id": 4,
      "type": "LoadImage",
      "pos": [
        -279.2074297165498,
        537.0944700512295
      ],
      "size": [
        225.89825994318176,
        407.63636363636374
      ],
      "flags": {},
      "order": 1,
      "mode": 0,
      "inputs": [],
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            2
          ]
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null
        }
      ],
      "properties": {
        "cnr_id": "comfy-core",
        "ver": "0.3.76",
        "Node name for S&R": "LoadImage"
      },
      "widgets_values": [
        "download (1).jpg",
        "image"
      ]
    },
    {
      "id": 1,
      "type": "JC",
      "pos": [
        405.50695997266604,
        537.0944700512295
      ],
      "size": [
        246.59217840204735,
        174
      ],
      "flags": {},
      "order": 2,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 2
        },
        {
          "name": "extra_options",
          "shape": 7,
          "type": "JOYCAPTION_EXTRA_OPTIONS",
          "link": 1
        }
      ],
      "outputs": [
        {
          "name": "STRING",
          "type": "STRING",
          "links": [
            3
          ]
        }
      ],
      "properties": {
        "cnr_id": "comfyui-joycaption",
        "ver": "2.0.2",
        "Node name for S&R": "JC"
      },
      "widgets_values": [
        "joycaption-beta-one",
        "Balanced (8-bit)",
        "Straightforward",
        "medium",
        "Keep in Memory"
      ],
      "color": "#232",
      "bgcolor": "#353"
    }
  ],
  "links": [
    [
      1,
      3,
      0,
      1,
      1,
      "JOYCAPTION_EXTRA_OPTIONS"
    ],
    [
      2,
      4,
      0,
      1,
      0,
      "IMAGE"
    ],
    [
      3,
      1,
      0,
      5,
      0,
      "*"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "ds": {
      "scale": 0.9090909090909091,
      "offset": [
        462.80742971654985,
        -391.99447005122937
      ]
    },
    "frontendVersion": "1.34.6",
    "VHS_latentpreview": false,
    "VHS_latentpreviewrate": 0,
    "VHS_MetadataImage": true,
    "VHS_KeepIntermediate": true
  },
  "version": 0.4
}

prompt_style
- Descriptive
  - 作为形式且稍长的散文记述。
  - 虽然想详细留下图像的内容时便利，但原样用于提示词容易变得冗长。
- Straightforward
  - 以简洁且客观的文体记述。
  - 是容易原样挪用于提示词或 LoRA 用说明文的风格。
- Stable Diffusion Prompt
  - 以面向 Stable Diffusion 的提示词形式记述。
- Danbooru tag list
  - 以 Danbooru 的标签形式（例: 1girl, blue_hair）列举标签。
caption_length
- 指定输出的说明文的容量（稍短／稍长）。
Extra Options
- 设定为了引导说明文生成的追加指示。
- 作为例子，关于相机角度或画质・分辨率、NSFW 要素等，可以指定“详细写／不太触及”这样的方针。

JoyCaption

什么是 JoyCaption？

自定义节点

JoyCaption 节点

什么是 JSON 复制按钮？

这个页面有问题！

请补充讲解！

感想 / 其他

感谢！

JoyCaption

什么是 JoyCaption？

自定义节点

JoyCaption 节点

相关工作流