リップシンクとは?
リップシンクは、音声の内容やリズムに合わせて、口や表情の動きを後付けする技術です。
もともとある動画に別録りの音声を重ねたり、一枚絵を「しゃべっている風」に動かしたりするために使われます。
既存動画の口パクを合わせる
← ベース動画 | → リップシンク(LatentSync)
最初に広く知られたのは、Wav2Lipのように「口元だけを直す」タイプのモデルです。
すでに撮影されている動画と別録りの音声を入力すると、顔や体の動きはそのままに、口だけが新しい音声に合うように動いた動画を出力します。
一枚絵をしゃべらせる
EMO
EMOのようなモデルは、一枚の顔画像と音声から、しゃべっている動画を直接生成します。
入力画像を音声という制御で動かす、image2videoの発展とも言えるでしょう。
キャラクターイラストや顔写真を一枚用意して、セリフや歌の音声を与えると、その長さに応じた口パク付きの動画が返ってきます。まばたきや口角の動き、軽い首振りなども一緒に作られます。
音声から動画全体を動かす
少し声を張り上げて喋って見るとわかりますが、喋る時には口だけ動かしているわけではありません。 肺が膨らみ、肩が持ち上がり、気づいたら手でジェスチャーまでしているわけです。
つまるところ、Wav2Lipのような口だけ音声に合わせて動かす、だけでは自然な動画は作れないんですね。
動画生成モデルが実用的な性能になってきたのも相まって、単なる「リップシンク」というより、音声駆動型のポートレート動画生成 という流れに進んでいきます。
InfineTalk
現在のSoTAとして、Wan2.1をベースにした、FantasyTalkingやInfiniteTalkのようなものがあります。