什么是 SCAIL-2?

SCAIL-2 是一个基于 Wan2.1 的模型,专门用于人物和角色的动作迁移。

它和 Wan-Animate 以及前作 SCAIL-1 最大的区别是,不会先转换成火柴人之类的中间表示。

用 ViTPose 或 OpenPose 做出火柴人,再把它作为条件来驱动人物。过去这算是很自然的想法,但一旦转换成火柴人,很多信息都会丢失。

深度、接触、多人之间的交错动作、非人类角色的动作等等……

所以 SCAIL-2 会把参考图像和动作视频几乎原样传给 DiT。

与其由人来手搓复杂的处理流水线,不如准备合适的数据集,让 AI 理解这个任务。这样得到的东西往往更灵活,也更好用。这种思路今后应该会越来越常见。


模型下载

📂ComfyUI/
└── 📂models/
    ├── 📂checkpoints/
    │   └── sam3.1_multiplex_fp16.safetensors
    ├── 📂clip_vision/
    │   └── clip_vision_h.safetensors
    ├── 📂diffusion_models/
    │   └── wan2.1_14B_SCAIL_2_fp8_scaled.safetensors
    ├── 📂loras/
    │   └── Wan21_I2V_14B_lightx2v_cfg_step_distill_lora_rank64.safetensors
    ├── 📂text_encoders/
    │   └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
    └── 📂vae/
        └── wan_2.1_vae.safetensors

Animation 模式

用动作视频来驱动 参考图像

SCAIL-2_Animation.json

基础 workflow 和 Wan-Animate 很接近,但这里简单很多,所以轻松看下去就好。

参考图像・动作视频

参考图像和动作视频会在内部 resize,所以一开始不需要做成相同尺寸。

  • 长宽比接近会更容易处理。
  • 图像和视频中的姿势不需要完全一致。
  • 但是差得太多会失败。
  • 参考图像最好选择接近动作视频第 1 帧的图像。

Prompt

因为只是转移动作,所以不需要很详细的 prompt。

  • 但是,如果 prompt 太短,尤其是在 Replacement 模式 中会更容易失败。
  • 这次的话,可以像 穿着衬衫的男性一只手扶着腰,另一只手摸着头发 这样,写到足够说明想生成什么样的视频。

分辨率・帧数

生成尺寸和帧数输入到 WanSCAILToVideo

  • 推荐分辨率为 480p(864×480)到接近 720p(1280×704),并且是 32 的倍数
  • 最大帧数为 81
  • 这个 workflow 会 resize 参考图像,并把那个尺寸作为生成分辨率。

使用 SAM3.1 生成 Mask

使用 SAM 3 / 3.1 对参考图像和动作视频中的人物生成 mask。

  • 这不是 inpainting 用的严格 mask,而是告诉 SCAIL-2 人物对应关系的辅助信息,所以稍微有点偏差也没问题。

Create SCAIL-2 Colored Mask

生成的 mask 会被适当地着色。

  • 多人场景下这里会稍微重要一些。后面会说明。

6 steps 生成

SCAIL-2 也可以使用 Wan2.1 高速生成 用的 Lightx2v LoRA。

  • cfg 为 1.0
  • steps 为 6

输出例

参考图像
参考图像
动作视频
output

Replacement 模式

视频中的人物 替换为 参考图像中的人物

SCAIL-2_Replacement.json

基本上只要把 Create SCAIL-2 Colored MaskWanSCAILToVideoreplacement_mode 设为 true

分辨率

Replacement 会以视频尺寸为基准。

  • 这个 workflow 会 resize 视频的第 1 帧,取得那个尺寸并进行设置。

Create SCAIL-2 Colored Mask 与 WanSCAILToVideo

replacement_mode 设为 true

  • 顺便一提,Create SCAIL-2 Colored Mask 的输出只是让 pose_video 侧的背景变白。

输出例

动作视频
参考图像
参考图像
output

Animation 模式(多人)

SCAIL-2 也支持多人视频和图像。

不需要特别操作。和前面一样,输入视频和参考图像即可。

SCAIL-2_Animation_multi-char.json

Create SCAIL-2 Colored Mask

多人时,哪个人物对应哪段动作会变得重要。SCAIL-2 使用彩色 mask 来控制这一点。

  • 当 SAM3.1 分割出多个目标时,Create SCAIL-2 Colored Mask 会按顺序把它们涂成不同颜色。
  • 基本上同色之间会被关联起来,所以请使用 sort_by 等方式对齐颜色。

不过,如下面的输出例所示,颜色对应和动作并不一定总能对上。它只是一个较弱的条件,模型也可能单纯选择构图上更接近的一方。

输出例

参考图像
参考图像
动作视频
output

Animation 模式(81 帧以上)

SCAIL-2 基本上生成到 81 帧为止,但使用 WAN Context Windows (Manual),就可以沿时间方向分段生成更长的视频。

SCAIL-2_Animation_WAN-Context-Windows.json

WAN Context Windows (Manual)

可以理解为时间轴方向的 tiling,或者 context sliding。

  • context_length 设为 81 时,内部会按 81 帧为一段进行生成。
  • 如果直接这样分段,接缝会很明显,所以用 context_overlap 设置适当的重叠帧数。

输出例

参考图像
参考图像
动作视频
output