タグ・キャプション生成とは?
画像からタグや説明文(キャプション)を自動で付けるタスクです。
LoRA やファインチューニング用のデータセットづくりや、参考画像と同じような画像を作るためのプロンプト生成などに使われます。
タグ生成(tagger)
Danbooru 風のタグやジャンルラベルを自動で付けるものです。
WD 系 tagger
- WD14-tagger / WD-tagger-v3 系

- イラスト・アニメ画像向けのタグ付けモデルです。
- キャラ・髪色・服装・表情・構図など、かなり細かいタグまで付けてくれます。
JoyTagger
- WD 系がアニメ特化なのに対して、もう少し汎用的な画像にも対応した tagger です。
- 後述する JoyCaption と同じ作者によるもので、タグ付けとキャプション生成を同じ系統のツールで揃えたい場合にも便利です。
ローカルキャプション生成モデル
画像を扱える LLM(VLM)が貴重だった頃は、ローカルで動かすキャプション生成モデルがいくつも提案されていました。 moondream、LLaVA 系、InternLM-XComposer2-VL など、名前を挙げればきりがありません。
現在の基準から見ると、精度・安定性・コストのバランスで厳しいものも多く、あえて新規に導入する価値があるものは限られてきています。
ここでは、今でも比較的使いやすいものだけ挙げておきます。
JoyCaption
- JoyCaption
- JoyTagger と同じ作者が作成した、キャプション生成に特化した軽量モデルです。
- 汎用的な用途を目指す VLM と違い、「画像→説明文」に特化しているため、プロンプトにこだわる必要もなく、気軽に使えます。
- なにより軽量です。
Qwen-2.5 / Qwen3-VL 系
- 軽量なローカル MLLM として、現時点で SoTA 級といえる系列です。
- 一般的なキャプション生成はもちろん、「学習用キャプションとして適した書き方にして」など、少し踏み込んだ指示にも対応できます。
- ChatGPT のような LVLM をローカルで動かしたい場合は、とりあえず使ってみてください。
ChatGPT / Gemini など API
プロンプト生成のときと同じく、クローズドモデルを API 経由で使うのも良い選択です。
MLLM のセットアップは難しいうえ、計算コストも高いですからね……、 気楽に使えるのは何よりうれしいところです。
ローカルモデルを使う理由
LLM に限りませんが、ローカルモデルを使う理由としては、やはり NSFW をを扱えるかどうか が大きいでしょう。
APIのみならず、ローカルなモデルでも検閲されているものは多いです。
WD 系 tagger や JoyCaption が、今でも一定の需要を保っているのも、ひとえにこの理由だと思います。
完全ローカル運用が必要な場合や、NSFW を含むデータセットづくりをする場合には、こうしたローカルモデルを組み合わせて使ってください。