video2audioとは?
Sora 2やVeo 3などを除き、現在の動画生成モデルは未だに動画のみしか生成しません。つまり、音がありません。
そんなときに役立つのが、video2audio - 動画から音声を生成する技術です。
映像から「何が起きているか」を理解し、その内容に対応した音を、映像にシンクロするように生成します。
FoleyCrafter
FoleyCrafterは、既存のText2Audioモデルの上に「動画用のアダプタ」を足したVideo2Audioフレームワークです。
元になる Text2Audio モデルに、「映像を見て、どんな音がふさわしいか」「いつ鳴るべきか(タイミング)」の情報を足しているイメージです。
HunyuanVideo-Foley
HunyuanVideo-Foleyは、テキスト+動画→オーディオを最初から想定した、マルチモーダル拡散Transformerです。
端からFoleyCrafterのようにtext2audioモデルに機能を足したのではなく、テキストと動画、音声をまとめて学習しています。