JavaScriptが利用できないため、メニューや検索など一部機能は利用できません。ブラウザや拡張機能の設定を確認してください。

video2audio

video2audioとは？

Sora 2やVeo 3などを除き、現在の動画生成モデルは未だに動画のみしか生成しません。つまり、音がありません。

そんなときに役立つのが、video2audio - 動画から音声を生成する技術です。

映像から「何が起きているか」を理解し、その内容に対応した音を、映像にシンクロするように生成します。

FoleyCrafter

FoleyCrafterは、既存のText2Audioモデルの上に「動画用のアダプタ」を足したVideo2Audioフレームワークです。

元になる Text2Audio モデルに、「映像を見て、どんな音がふさわしいか」「いつ鳴るべきか（タイミング）」の情報を足しているイメージです。

HunyuanVideo-Foley

HunyuanVideo-Foleyは、テキスト＋動画→オーディオを最初から想定した、マルチモーダル拡散Transformerです。

端からFoleyCrafterのようにtext2audioモデルに機能を足したのではなく、テキストと動画、音声をまとめて学習しています。

このページの修正を報告

フレーム補間リップシンク

jsonコピーボタンとは？

jsonをコピーし、ComfyUI のキャンバス上で Ctrl + V を押すと、そのまま workflow を貼り付けられます。

修正・誤字報告

内容の不備・誤字などがあった場合は、対象ページのURLとともにお知らせください。

送信前に内容を確認してください。

GitHub Issueに送信します。個人情報は書かないでください。

記事リクエスト

なにか解説して欲しいComfyUIの機能、AIの技術などがあれば気軽にリクエストしてください。

送信前に内容を確認してください。

GitHub Issueに送信します。個人情報は書かないでください。

感想・その他

応援の言葉、お叱りの言葉、どんなものでもモチベーションになります。いつもありがとうございます！

送信前に内容を確認してください。

この内容をサイトに掲載/引用

して良いしないでほしい

GitHub Issueに送信します。個人情報は書かないでください。