LTX 2.3 是由 Lightricks 基于 Diffusion Transformer (DiT) 架构构建的 220 亿参数开源 AI 视频模型。它支持文本到视频、图像到视频、音频到视频和视频到视频生成，具备原生纵向输出、重建的 VAE 以及 4 倍扩展的文本连接器，以实现更精确的提示解释。模型权重在 Hugging Face 上提供，适用于开发版和蒸馏版检查点。

我需要强大的 GPU 或本地桌面设置吗？

不需要。在 ltx23.app 上，所有渲染都在云端进行——无需本地 GPU、VRAM 或桌面安装。如果您偏好本地运行，LTX 2.3 支持 ComfyUI 工作流和 GGUF/FP8 量化格式以降低硬件要求。推荐的本地配置是 NVIDIA GPU，配备 32 GB+ VRAM、32 GB RAM 和 Windows 系统上的 60 GB 存储空间。

LTX 2.3 与 WAN 2.2 等其他视频模型相比如何？

在 H100 GPU 上，LTX 2 系列的吞吐量约为 WAN 2.2 14B 的 18 倍，使其在批量渲染方面显著更快。LTX 2.3 还引入了原生 9:16 纵向视频、重新设计的音频声码器，以及从其重建的潜在空间中获得的更锐利边缘细节——这些改进是大多数竞争开源模型尚未匹敌的。

该模型支持哪些视频规格？

视频渲染最高可达 1080p HD，支持 16:9、9:16、1:1 和 4:3 纵横比，时长从 4 到 20 秒，包括音频同步输出。LTX 2.3 是其系列中首款支持原生纵向 1080x1920 的模型，训练于真实纵向数据而非裁剪的横向数据。提示词支持最多 2,000 个字符，用于详细的场景描述。

LTX 2.3 是免费使用的吗？

是的。在 ltx23.app 上的新账户会获得免费积分来尝试 AI 视频生成。之后，您可以购买额外积分或订阅计划以继续创作。订阅计划为频繁创作者提供批量折扣。

我可以将 LTX 2.3 的输出用于商业目的吗？

是的。在 ltx23.app 上生成的视频包含完整的商业权利——无水印、无版权费。开源许可证也允许符合条件的组织将本地生成的输出用于商业用途，涵盖广告、社交媒体、广播和印刷。

有哪些模型格式和工作流可用？

LTX 2.3 提供基础检查点、带 LoRA 的蒸馏检查点、FP8 缩放变体和 GGUF 量化格式。它直接集成到 ComfyUI 中，用于自定义工作流，包括首尾帧控制、空间升级器、深度条件和 IC-LoRA 运动跟踪。所有权重均可从 Hugging Face 下载。

如何开始使用 LTX 2.3？

在 ltx23.app 上创建免费账户，输入描述视频的文本提示，可选上传参考图像或音频，设置时长和纵横比等参数，然后点击生成。您的视频随时可下载——无需视频编辑或 AI 专业知识。

LTX 2.3 简介

这款AI视频生成器提供文本转视频、图像转视频和音频转视频的创作功能，采用开源的LTX 2.3模型，搭载22B参数的DiT引擎，可实现电影级的输出效果。

访问网站

LTX 2.3 是什么

LTX 2.3 是一个AI驱动的视频生成平台，能够将文本、图像和音频转换为高质量的电影级视频。基于 220亿参数的扩散Transformer（DiT）架构构建，它能够以惊人的速度和精确度提供专业级别的视频内容。

该平台支持多种输入模式，包括文本转视频、图像转视频、音频转视频和视频转视频生成。LTX 2.3 可生成最高 1080p 分辨率的视频，并支持多种宽高比，原生支持竖屏 1080×1920，非常适合社交媒体内容。该模型的扩展文本连接器能够更准确地解释复杂提示，而其重建的 VAE 确保了更锐利的纹理和更干净的边缘。

LTX 2.3 完全在云端运行，无需强大的本地硬件。开源模型在 Hugging Face 上以商业授权提供，可供个人和企业使用。凭借在 H100 GPU 上比同类模型快 18 倍的效能，LTX 2.3 为创作者、营销人员和开发者提供高效的视频制作解决方案。

LTX 2.3 如何工作

LTX 2.3 是一个AI驱动的视频生成工具，可将文本、图像或音频转化为使用220亿参数的开源模型制作的电影级视频。基于 Diffusion Transformer（DiT）架构，它通过多模态管道处理用户输入，生成高质量视频输出。用户可以通过输入提示词、上传参考图像或音频，并选择时长、宽高比和分辨率等参数来创建视频。该系统利用云端渲染以实现快速处理，无需本地GPU资源。LTX 2.3 支持多种输出格式，包括原生竖屏视频，并提供面部保留、运动控制和音频同步等功能。平台为新用户提供免费积分，并提供订阅计划供扩展使用，已包含商业授权。

LTX 2.3 的优势

LTX 2.3 是一个能够将文本、图像和音频转换为电影级视频的强大 AI 视频生成器，使用 220 亿参数的开源模型。基于扩散Transformer 架构，它在保持卓越质量的同时，提供比竞争模型快 18 倍的性能。该平台支持多模态输入，包括文本转视频、图像转视频、音频转视频和视频转视频生成。关键特性包括原生竖屏视频 1080x1920、面部保留以及扩展的文本连接器，用于精准的提示解读。通过基于云的渲染，无需本地 GPU 设置，LTX 2.3 提供商业权益和灵活的订阅方案，起步价为每月 $13.90，使专业 AI 视频创作触手可及，面向所有技能水平的创作者。

LTX 2.3 的优点和缺点

优点

云端渲染，无需本地GPU。
支持多种输入类型：文本、图像、音频、视频。
开源，且在收入阈值内提供免费商用。

缺点

初始免费试用后需购买积分。
仅限4-20秒的视频时长。
复杂提示可能需要学习曲线。

LTX 2.3 替代品

Image to Video AI 是一款在线 AI 视频生成工具，帮助营销人员和内容创作者通过添加简易运动指令、预览效果并使用免费积分导出，将产品照片、人物肖像或 AI 艺术作品动画化为短视频。

AIKissify 提供 AI 视频生成器，用户可上传照片并即时生成逼真的接吻动画，为浪漫社交媒体内容和个人礼物提供快速、免费解决方案。

UrlToVideo AI 是一款面向电商营销者的 AI 视频生成工具，能够将 Shopify、Amazon 或 TikTok Shop 的商品链接转化为可直接投放的视频广告，并自动生成脚本、AI 虚拟形象和配音，帮助加速创意测试并降低制作成本。

Zanta AI 是面向创作者和营销人员的 AI 驱动视频与图像工作室，提供文字转视频、图像转视频以及基于 Veo 3.1、Nano Banana 和 GPT Image 等模型的高级图像生成和编辑，快速产出可直接发布的视觉内容。

Seedance 2 是面向广告主、社交媒体运营者和创作者的 AI 视频生成工具，可将日文文本或图片转换为 15 秒视频，支持分辨率选择并可添加可选配音。

Swayclip 是一个 AI 创意平台，创作者可以在同一个浏览器工作区内使用多种主流模型，根据文本或参考图片生成电影级视频、编辑类图片和音乐作品。

NeoDrop 是一个由 AI 驱动的内容创作平台，为创作者提供频道设置，系统会持续生成文章、图片、音频和视频，实现内容工作流自动化。

Omni Flash 是面向创作者的 AI 视频编辑器，可通过自然语言编辑，使用图像、音频或草图作为参考，实现角色替换、风格或动作迁移，同时在多轮细化中保持场景连贯性和物理真实性。

Omni Flash 是一款面向创作者和营销者的 AI 视频生成工具，可根据文字、图片或片段生成 4K 电影级剪辑，支持音频同步、唇形同步和角色一致性，快速输出商业级成片。

MusVideo AI 音乐转视频生成器让音乐人、创作者和唱片公司上传音频文件，即可在几分钟内得到适用于 TikTok、YouTube 或 Instagram 的高清分段电影式视频。

AI Inspo 是一款 AI 创意平台，创作者、营销人员和设计师只需输入提示，即可在几分钟内生成图像、视频和音乐，无需切换不同工具。

Gemini Omni Flash 是面向创作者和开发者的 AI 视频生成器，可将文本、图像、音频和参考视频转换为草稿，并支持对话式编辑，实现快速且一致的视频制作。

LTX 2.3 简介

LTX 2.3 是什么

LTX 2.3 如何工作

LTX 2.3 的优势

LTX 2.3 的优点和缺点

优点

缺点

更多信息

LTX 2.3 替代品

Image to Video AI

AIKissify

UrlToVideo AI

Zanta AI

Seedance 2

Swayclip

NeoDrop

Omni Flash

Omni Flash

MusVideo

AI Inspo

Gemini Omni Flash

更多替代品

图片转视频

文字转视频

AI 视频生成器