LTX 2.3 的核心功能
文本转视频生成
将自然语言提示转换为电影级视频,具备精准的光照、流畅的运动和逼真的物理效果。
图像转视频转换
将上传的图像转换为动态视频片段,拥有平滑的相机运动和逼真的动画。
音频转视频同步
生成与音频轨道同步的视频,包括唇形同步、节拍对齐的运动以及空间音频提示。
多模态视频生成
在统一平台上支持文本、图像、音频和视频输入,实现多功能内容创作。
原生肖像视频输出
创建垂直视频(1080×1920 分辨率),针对 TikTok、Reels、Shorts 等平台进行优化。
22B‑参数 DiT 引擎
采用 220 亿参数的扩散变换器(Diffusion Transformer)架构,提供卓越的细节、纹理和边缘质量。
扩展文本连接器
配备 4 倍更大的文本连接器,精准解释复杂提示,包括空间布局和情绪。
面部与角色保持
在视频帧之间保持一致的面部特征、表情和体型比例,以支持叙事。
重建的 VAE 用于更清晰的输出
实施重新设计的 VAE 与潜在空间,实现更锐利的发丝、更干净的边缘以及更好的纹理保留。
开源与商业授权
在 Hugging Face 开放源码权重,提供免费商业使用许可(年收入不超过 1,000 万),适用于符合条件的组织。
LTX 2.3 的用例
- 社交媒体营销人员:使用 LTX 2.3 的原生竖屏视频生成功能,创建用于 TikTok 和 Instagram Reels 的引人入胜的垂直视频内容。
- 电子商务企业:从产品图像大规模生成产品演示视频,降低生产成本和时间。
- 游戏开发者:使用 LTX 2.3 的文本转视频和图像转视频功能,制作电影级预告片和游戏过场动画。
- 内容创作者:将分镜帧转换为电影级动画,实现流畅的运动和连贯性。
- 广告公司:利用 LTX 2.3 的音频转视频同步功能,快速为多个市场生成本地化视频广告。
