什么是 HunyuanCustom？

HunyuanCustom 是一个多模态、条件式和可控的视频生成模型。它旨在生成自定义视频，并接受文本、图像、音频和视频作为输入。该系统优先考虑在生成的整个视频中保持主体身份的一致性。

HunyuanCustom 的主要创新是什么？

HunyuanCustom 的主要创新包括基于 LLaVA 的图像-文本融合，以改进多模态理解。它还具有图像 ID 增强模块、用于音频驱动生成的 AudioNet 以及视频驱动的注入模块。这些组件有助于在视频生成中实现强大的多模态控制和身份保持。

HunyuanCustom 支持广泛的输入模态，包括文本、图像、音频和视频。这允许基于用户特定需求和可用内容进行高度灵活和可定制的视频生成。

HunyuanCustom 利用先进的时间建模和多模态融合技术。这种方法确保了在生成的视频的所有帧中，即使在不同的输入条件下，主体身份也能保持一致。

根据大量实验，HunyuanCustom 的性能优于最先进的开源和闭源方法。它尤其在身份（ID）一致性、真实感和文本-视频对齐方面表现出色，使其成为可控视频合成的领先解决方案。

HunyuanCustom 非常适合各种应用，包括个性化视频创作、营销内容生成、娱乐目的、教育内容开发以及任何需要可控和主体一致的视频合成的场景。该工具促进了独特视频内容的创建。

有关 HunyuanCustom 的信息，包括代码访问和其他资源，可以在 GitHub 上找到。研究论文可在 arXiv 上找到，并且可以通过官方演示链接测试该模型。可以在 hunyuantencentcom 网站上获得更多信息。

HunyuanCustom 可以从文本、图像、音频和视频等多种输入生成视频，从而为创作过程提供灵活的控制。

该模型利用时间建模和多模态融合，以确保在生成的视频帧中主体身份的一致性。

诸如 AudioNet 和视频注入之类的专用模块能够实现基于音频或参考视频输入的精确视频创建。