什么是 Human Motion Transfer?

Human Motion Transfer 是将 其他视频的全身动作转移 到一张人物图像(或角色图像)上的技术。

我想很多用法是借用舞蹈视频或走路视频的“动作”,让自己的角色来表演。

talking head 主要以“脸〜上半身”为对象、细致地匹配表情和嘴部动作相对,Human Motion Transfer 主要处理 全身的姿势


Animate Anyone 之后的潮流

虽然像 BDMM 等,以前就存在转移动作的研究,但在图像生成 AI 社区中并没有广泛传播,让这个任务广为人知的应该是 Animate Anyone

以一张人物图像和另一个人物的舞蹈视频等作为输入,生成“该角色做同样动作的全身视频”为概念,流传了许多演示视频。

但是 Animate Anyone 本身没有开源,所以作为实际能接触到的模型,出现了以 Stable Video Diffusion 为基础试图重现的 MimicMotion 等模型。

MimicMotion.json

DiT 世代和 Wan-Animate

随着基于 DiT 的视频生成模型的登场,Human Motion Transfer 也在顺理成章地进化。

Wan2.1 VACE

Wan2.1 中有一种被称为 VACE 的机制。

VACE 是在视频生成中可以汇总处理 ControlNetreference2videoinpainting 的框架。 通过组合 ControlNet Pose 和 reference2video 式的操作,可以做到接近 Human Motion Transfer 的事情。

与其说是专用的 Human Motion Transfer 模型,不如说是作为“以 Wan2.1 为基础,使用姿势和参考视频控制动作的平台”来使用。

Wan-Animate

更专注于动作转移的模型是 Wan-Animate

Wan-Animate

输入角色图像和带有动作的驱动视频,可以转移全身的动作。

不仅是全身的姿势,还可以使用“面部特写视频”作为驱动,因此特征是 可以覆盖 talking head 式的用法和 Human Motion Transfer 式的用法两者