什么是 Lip Sync(对口型)?
Lip Sync 是配合音频的内容或节奏,追加嘴巴或表情动作的技术。
它用于给原本的视频叠加单独录制的音频,或让一张静止画“像在说话一样”移动。
配合现有视频的对口型
← 基础视频 | → Lip Sync (LatentSync)
最初广为人知的是像 Wav2Lip 那样“只修改嘴角”类型的模型。
输入已经拍摄好的视频和单独录制的音频,就会输出脸或身体的动作保持原样,只有嘴巴配合新音频移动的视频。
让一张静止画说话
EMO
像 EMO 这样的模型,可以从一张人脸图像和音频中直接生成说话的视频。 用音频来控制并驱动输入图像,可以说是 image2video 的发展。
准备一张角色插图或人脸照片,并给予台词或歌声,它就会返回对应长度的、带有对口型的视频。眨眼、嘴角动作、轻微的头部晃动等也会一并制作出来。
通过音频驱动整个视频
稍微大声说话就能明白,说话时不仅仅是嘴巴在动。 肺部膨胀,肩膀抬起,回过神来甚至在用手做手势。
归根结底,像 Wav2Lip 那样只让嘴巴配合音频移动,是无法制作出自然的视频的。
再加上视频生成模型已经达到了实用的性能,不仅仅是单纯的“对口型”,正在朝着 音频驱动型肖像视频生成 的方向发展。
InfineTalk
作为现在的 SoTA,有基于 Wan2.1 的 FantasyTalking 或 InfiniteTalk 等。