video2audioとは?

Sora 2やVeo 3などを除き、現在の動画生成モデルは未だに動画のみしか生成しません。つまり、音がありません。

そんなときに役立つのが、video2audio - 動画から音声を生成する技術です。

映像から「何が起きているか」を理解し、その内容に対応した音を、映像にシンクロするように生成します。


FoleyCrafter

FoleyCrafterは、既存のText2Audioモデルの上に「動画用のアダプタ」を足したVideo2Audioフレームワークです。

元になる Text2Audio モデルに、「映像を見て、どんな音がふさわしいか」「いつ鳴るべきか(タイミング)」の情報を足しているイメージです。


HunyuanVideo-Foley

HunyuanVideo-Foleyは、テキスト+動画→オーディオを最初から想定した、マルチモーダル拡散Transformerです。

端からFoleyCrafterのようにtext2audioモデルに機能を足したのではなく、テキストと動画、音声をまとめて学習しています。