什么是 Lip Sync(对口型)?

Lip Sync 是配合音频的内容或节奏,追加嘴巴或表情动作的技术。

它用于给原本的视频叠加单独录制的音频,或让一张静止画“像在说话一样”移动。


配合现有视频的对口型

← 基础视频 | → Lip Sync (LatentSync)

最初广为人知的是像 Wav2Lip 那样“只修改嘴角”类型的模型。

输入已经拍摄好的视频和单独录制的音频,就会输出脸或身体的动作保持原样,只有嘴巴配合新音频移动的视频。


让一张静止画说话

EMO

EMO 这样的模型,可以从一张人脸图像和音频中直接生成说话的视频。 用音频来控制并驱动输入图像,可以说是 image2video 的发展。

准备一张角色插图或人脸照片,并给予台词或歌声,它就会返回对应长度的、带有对口型的视频。眨眼、嘴角动作、轻微的头部晃动等也会一并制作出来。


通过音频驱动整个视频

稍微大声说话就能明白,说话时不仅仅是嘴巴在动。 肺部膨胀,肩膀抬起,回过神来甚至在用手做手势。

归根结底,像 Wav2Lip 那样只让嘴巴配合音频移动,是无法制作出自然的视频的。

再加上视频生成模型已经达到了实用的性能,不仅仅是单纯的“对口型”,正在朝着 音频驱动型肖像视频生成 的方向发展。

InfineTalk

作为现在的 SoTA,有基于 Wan2.1 的 FantasyTalkingInfiniteTalk 等。