Human Motion Transferとは?

Human Motion Transfer は、1枚の人物画像(またはキャラ画像)に、別の動画の全身モーションを移し替える技術です。

ダンス動画やウォーキング動画の「動きだけ」を借りてきて、自分のキャラクターに演じてもらう、といった使い方が多いと思います。

talking head が主に「顔〜上半身」を対象に、表情や口の動きを細かく合わせるのに対し、Human Motion Transfer は 全身のポーズ を中心に扱います。


Animate Anyone以降の流れ

BDMM など、以前からモーションを転送する研究は存在していましたが、画像生成AIコミュニティでこのタスクを広く知らしめたのは Animate Anyone でしょう。

1枚の人物画像と、別の人物のダンス動画などを入力にし、「そのキャラが同じ動きをするフルボディ動画」を生成するコンセプトで、多くのデモ動画が出回りました。

ただし Animate Anyone 自体はオープンソースではなかったため、実際に触れるモデルとしては、Stable Video Diffusion をベースに再現を試みた MimicMotion といったモデルが登場します。

MimicMotion.json

DiT世代とWan-Animate

DiTベースの動画生成モデルの登場によって、Human Motion Transfer も順当に進化しています。

Wan2.1 VACE

Wan2.1 には、VACE と呼ばれる仕組みがあります。

VACE は、動画生成において ControlNetreference2videoinpainting をまとめて扱えるフレームワークです。 ControlNet Pose と reference2video 的な操作を組み合わせることで、Human Motion Transfer に近いことができます。

専用の Human Motion Transfer モデルというよりは、「Wan2.1 を土台に、ポーズと参照動画を使って動きをコントロールするための土台」として使われます。

Wan-Animate

よりモーション転送に特化したモデルが、Wan-Animate です。

Wan-Animate

キャラクター画像と、動きを持ったドライバー動画を入力にして、フルボディのモーションを転送することができます。

全身のポーズだけでなく、「顔のアップ動画」をドライバーとして使うこともできるため、talking head 的な使い方と、Human Motion Transfer 的な使い方の両方をカバーできるのが特徴です。