标签・描述生成

什么是标签・描述生成？

这是一项从图像自动添加标签或说明文（Caption）的任务。

它被用于制作 LoRA 或微调用的数据集，以及生成用于制作与参考图像相似图像的提示词等。

标签生成（tagger）

自动添加 Danbooru 风格的标签或类型标签。

WD 系 tagger

WD14-tagger / WD-tagger-v3 系

WD-tagger-v3.json

{
  "last_node_id": 11,
  "last_link_id": 10,
  "nodes": [
    {
      "id": 11,
      "type": "LoadImage",
      "pos": [
        135,
        145
      ],
      "size": [
        289.42388916015625,
        379.69337463378906
      ],
      "flags": {},
      "order": 0,
      "mode": 0,
      "outputs": [
        {
          "name": "IMAGE",
          "type": "IMAGE",
          "links": [
            10
          ],
          "shape": 3
        },
        {
          "name": "MASK",
          "type": "MASK",
          "links": null,
          "shape": 3
        }
      ],
      "properties": {
        "Node name for S&R": "LoadImage"
      },
      "widgets_values": [
        "yellow-dress (1).png",
        "image"
      ]
    },
    {
      "id": 10,
      "type": "WD14Tagger|pysssss",
      "pos": [
        461,
        145
      ],
      "size": [
        292.44875507447193,
        277.8525060634534
      ],
      "flags": {},
      "order": 1,
      "mode": 0,
      "inputs": [
        {
          "name": "image",
          "type": "IMAGE",
          "link": 10,
          "slot_index": 0
        }
      ],
      "outputs": [
        {
          "name": "STRING",
          "type": "STRING",
          "links": null,
          "shape": 6
        }
      ],
      "properties": {
        "Node name for S&R": "WD14Tagger|pysssss"
      },
      "widgets_values": [
        "wd-swinv2-tagger-v3",
        0.35,
        0.85,
        false,
        false,
        "",
        "1girl, solo, long_hair, looking_at_viewer, gloves, dress, sitting, full_body, yellow_eyes, monochrome, sleeveless, striped_clothes, from_side, sleeveless_dress, yellow_background, vertical-striped_clothes, limited_palette, striped_dress, yellow_theme, vertical-striped_dress"
      ]
    }
  ],
  "links": [
    [
      10,
      11,
      0,
      10,
      0,
      "IMAGE"
    ]
  ],
  "groups": [],
  "config": {},
  "extra": {
    "0246.VERSION": [
      0,
      0,
      4
    ]
  },
  "version": 0.4
}

面向插图・动漫图像的标签添加模型。
角色、发色、服装、表情、构图等相当细致的标签都能添加。

JoyTagger

与 WD 系专注于动漫相对，这是一款对应更通用图像的 tagger。
与后述的 JoyCaption 出自同一作者，当想要用同一系列的工具统一进行标签添加和描述生成时也很方便。

本地描述生成模型

在能处理图像的 LLM（VLM）还很珍贵的时期，提出了许多在本地运行的描述生成模型。 moondream、LLaVA 系、InternLM-XComposer2-VL 等，名字多得数不过来。

以现在的标准来看，很多模型在精度・稳定性・成本的平衡上都很严峻，值得特意新引入的模型已经很有限了。

这里只列举至今仍相对容易使用的模型。

JoyCaption

JoyCaption
与 JoyTagger 由同一作者制作，专注于描述生成的轻量模型。
与以多用途为目标的 VLM 不同，因为它专注于“图像 → 说明文”，所以不需要纠结提示词，可以轻松使用。
最重要的是轻量。

Qwen-2.5 / Qwen3-VL 系

作为轻量的本地 MLLM，目前可以说是 SoTA 级的系列。
一般的描述生成自不用说，还能应对“改成适合作为学习用描述的写法”等稍微深入一点的指示。
如果想在本地运行像 ChatGPT 这样的 LVLM，请先试用这个。

ChatGPT / Gemini 等 API

与提示词生成时一样，通过 API 使用闭源模型也是一个不错的选择。

毕竟 MLLM 的设置很难，计算成本也很高……，能够轻松使用比什么都令人高兴。

使用本地模型的理由

不限于 LLM，使用本地模型的理由，最大的还是 能否处理 NSFW 吧。

不仅是 API，就算是本地模型也有很多是被审查过的。

WD 系 tagger 和 JoyCaption 至今仍保持着一定的需求，我认为完全也是因为这个理由。

如果需要完全本地运用，或者制作包含 NSFW 的数据集，请组合使用这些本地模型。

标签・描述生成

什么是标签・描述生成？

标签生成（tagger）

WD 系 tagger

JoyTagger

本地描述生成模型

JoyCaption

Qwen-2.5 / Qwen3-VL 系

ChatGPT / Gemini 等 API

使用本地模型的理由

什么是 JSON 复制按钮？

这个页面有问题！

请补充讲解！

感想 / 其他

感谢！

标签・描述生成

什么是标签・描述生成？

标签生成（tagger）

WD 系 tagger

JoyTagger

本地描述生成模型

JoyCaption

Qwen-2.5 / Qwen3-VL 系

ChatGPT / Gemini 等 API

使用本地模型的理由

相关工作流