由于 JavaScript 不可用，菜单和搜索等部分功能不可用。请检查浏览器或扩展设置。

video2audio

什么是 video2audio？

除了 Sora 2 或 Veo 3 等之外，目前的视频生成模型仍然只能生成视频。也就是说，没有声音。

这时有用的就是 video2audio —— 从视频生成音频的技术。

理解视频中“正在发生什么”，并生成与该内容对应的、与视频同步的声音。

FoleyCrafter

FoleyCrafter 是 在现有的 Text2Audio 模型上添加“视频用适配器”的 Video2Audio 框架。

这就像是给原来的 Text2Audio 模型，加上了“看视频，什么声音是合适的”“应该什么时候响（时机）”的信息。

HunyuanVideo-Foley

HunyuanVideo-Foley 是从一开始就设想 文本＋视频→音频 的多模态扩散 Transformer。

不是像 FoleyCrafter 那样从一开始就给 text2audio 模型添加功能，而是将文本、视频、音频汇总进行学习。

反馈此页面的修正

帧插值口型同步

什么是 JSON 复制按钮？

复制 JSON 后，在 ComfyUI 画布中按 Ctrl+V 就能直接粘贴该工作流。

这个页面有问题！

请尽量提供复现步骤或正确信息，当前 URL 会自动附上。

发送前请确认内容。我们会创建匿名的 GitHub Issue。

将提交到 GitHub Issue，请勿填写个人信息。

请补充讲解！

请说明想看的主题或模型名称，便于我们安排。

发送前请确认内容。我们会创建匿名的 GitHub Issue。

将提交到 GitHub Issue，请勿填写个人信息。

感想 / 其他

欢迎提交你的想法、印象或其他建议。

发送前请确认内容。我们会创建匿名的 GitHub Issue。

允许站点引用/刊登

允许请勿引用

将提交到 GitHub Issue，请勿填写个人信息。