LTX 2.3 的核心功能
文字轉影片生成
將自然語言提示轉換為電影級視頻,具備精確的光照、流暢的運動和寫實的物理效果。
圖像轉影片轉換
將上傳的圖像轉換為動態影片片段,配有平滑的相機運動和寫實的動畫。
音訊轉影片同步
產生與音訊軌道同步的影片,包括lip‑sync、節拍對齊的運動以及空間音訊提示。
多模態影片生成
在統一平台上支援文字、圖像、音訊和影片輸入,實現多功能內容創作。
原生肖像影片輸出
創建垂直影片(1080×1920 分辨率),針對 TikTok、Reels、Shorts 等平台進行優化。
22B‑參數 DiT 引擎
使用 220 億參數的擴散轉換器(Diffusion Transformer)架構,提供卓越的細節、紋理和邊緣品質。
擴展文字連接器
配備 4 倍更大的文字連接器,精確解讀複雜提示,包括空間佈局和情緒。
面部與角色保留
在影片幀之间保持一致的面部特徵、表情和身形比例,以支援敘事。
重建的 VAE 用於更清晰的輸出
實施重新設計的 VAE 與潜在空間,實現更銳利的頭發、更乾淨的邊緣以及更好的紋理保留。
開源與商業授權
在 Hugging Face 提供開源權重,提供免費商業使用許可(年度收入不超過 1,000 萬),適用於符合條件的組織。
LTX 2.3 的用例
- 社交媒體行銷人員:使用 LTX 2.3 的原生直式影片產生功能,創建用於 TikTok 和 Instagram Reels 的引人入勝的直向影片內容。
- 電子商務企業:從商品圖像大規模產生產品示範影片,降低生產成本和時間。
- 遊戲開發者:使用 LTX 2.3 的文字轉影片和圖像转影片功能,製作電影級預告片和遊戲過場動畫。
- 內容創作者:將劇本框架轉換為電影級動畫,實現流暢的動作和連貫性。
- 廣告公司:利用 LTX 2.3 的音訊轉影片同步功能,快速為多個市場生成在地化廣告影片。
