LTX 2.3 是由 Lightricks 基于 Diffusion Transformer (DiT) 架构构建的 220 亿参数开源 AI 视频模型。它支持文本到视频、图像到视频、音频到视频和视频到视频生成，具备原生纵向输出、重建的 VAE 以及 4 倍扩展的文本连接器，以实现更精确的提示解释。模型权重在 Hugging Face 上提供，适用于开发版和蒸馏版检查点。

我需要强大的 GPU 或本地桌面设置吗？

不需要。在 ltx23.app 上，所有渲染都在云端进行——无需本地 GPU、VRAM 或桌面安装。如果您偏好本地运行，LTX 2.3 支持 ComfyUI 工作流和 GGUF/FP8 量化格式以降低硬件要求。推荐的本地配置是 NVIDIA GPU，配备 32 GB+ VRAM、32 GB RAM 和 Windows 系统上的 60 GB 存储空间。

LTX 2.3 与 WAN 2.2 等其他视频模型相比如何？

在 H100 GPU 上，LTX 2 系列的吞吐量约为 WAN 2.2 14B 的 18 倍，使其在批量渲染方面显著更快。LTX 2.3 还引入了原生 9:16 纵向视频、重新设计的音频声码器，以及从其重建的潜在空间中获得的更锐利边缘细节——这些改进是大多数竞争开源模型尚未匹敌的。

该模型支持哪些视频规格？

视频渲染最高可达 1080p HD，支持 16:9、9:16、1:1 和 4:3 纵横比，时长从 4 到 20 秒，包括音频同步输出。LTX 2.3 是其系列中首款支持原生纵向 1080x1920 的模型，训练于真实纵向数据而非裁剪的横向数据。提示词支持最多 2,000 个字符，用于详细的场景描述。

LTX 2.3 是免费使用的吗？

是的。在 ltx23.app 上的新账户会获得免费积分来尝试 AI 视频生成。之后，您可以购买额外积分或订阅计划以继续创作。订阅计划为频繁创作者提供批量折扣。

我可以将 LTX 2.3 的输出用于商业目的吗？

是的。在 ltx23.app 上生成的视频包含完整的商业权利——无水印、无版权费。开源许可证也允许符合条件的组织将本地生成的输出用于商业用途，涵盖广告、社交媒体、广播和印刷。

有哪些模型格式和工作流可用？

LTX 2.3 提供基础检查点、带 LoRA 的蒸馏检查点、FP8 缩放变体和 GGUF 量化格式。它直接集成到 ComfyUI 中，用于自定义工作流，包括首尾帧控制、空间升级器、深度条件和 IC-LoRA 运动跟踪。所有权重均可从 Hugging Face 下载。

如何开始使用 LTX 2.3？

在 ltx23.app 上创建免费账户，输入描述视频的文本提示，可选上传参考图像或音频，设置时长和纵横比等参数，然后点击生成。您的视频随时可下载——无需视频编辑或 AI 专业知识。

LTX 2.3 核心功能

LTX 2.3 的核心功能

文本转视频生成

将自然语言提示转换为电影级视频，具备精准的光照、流畅的运动和逼真的物理效果。

图像转视频转换

将上传的图像转换为动态视频片段，拥有平滑的相机运动和逼真的动画。

音频转视频同步

生成与音频轨道同步的视频，包括唇形同步、节拍对齐的运动以及空间音频提示。

多模态视频生成

在统一平台上支持文本、图像、音频和视频输入，实现多功能内容创作。

原生肖像视频输出

创建垂直视频（1080×1920 分辨率），针对 TikTok、Reels、Shorts 等平台进行优化。

22B‑参数 DiT 引擎

采用 220 亿参数的扩散变换器（Diffusion Transformer）架构，提供卓越的细节、纹理和边缘质量。

扩展文本连接器

配备 4 倍更大的文本连接器，精准解释复杂提示，包括空间布局和情绪。

面部与角色保持

在视频帧之间保持一致的面部特征、表情和体型比例，以支持叙事。

重建的 VAE 用于更清晰的输出

实施重新设计的 VAE 与潜在空间，实现更锐利的发丝、更干净的边缘以及更好的纹理保留。

开源与商业授权

在 Hugging Face 开放源码权重，提供免费商业使用许可（年收入不超过 1,000 万），适用于符合条件的组织。

LTX 2.3 的用例

社交媒体营销人员：使用 LTX 2.3 的原生竖屏视频生成功能，创建用于 TikTok 和 Instagram Reels 的引人入胜的垂直视频内容。
电子商务企业：从产品图像大规模生成产品演示视频，降低生产成本和时间。
游戏开发者：使用 LTX 2.3 的文本转视频和图像转视频功能，制作电影级预告片和游戏过场动画。
内容创作者：将分镜帧转换为电影级动画，实现流畅的运动和连贯性。
广告公司：利用 LTX 2.3 的音频转视频同步功能，快速为多个市场生成本地化视频广告。

LTX 2.3 核心功能

LTX 2.3 的核心功能

文本转视频生成

图像转视频转换

音频转视频同步

多模态视频生成

原生肖像视频输出

22B‑参数 DiT 引擎

扩展文本连接器

面部与角色保持

重建的 VAE 用于更清晰的输出

开源与商业授权

LTX 2.3 的用例

更多信息

LTX 2.3 替代品

Image to Video AI

AIKissify

UrlToVideo AI

Zanta AI

Seedance 2

Swayclip

NeoDrop

Omni Flash

Omni Flash

MusVideo

AI Inspo

Gemini Omni Flash

更多替代品

图片转视频

文字转视频

AI 视频生成器