LTX-Video
综合介绍
LTX-Video是一个开源的视频生成模型,它基于先进的扩散模型(DiT)架构,可以根据用户输入的文字描述或图片,快速生成一段高清视频。这个工具的核心优势在于其生成速度和视频质量。例如,它的一些优化版本可以在高端图形处理器(如H100)上实现比实时播放还快的视频生成速度,同时分辨率可达1216×704像素。
LTX-Video支持多种视频创作方式,除了基本的“文本生成视频”和“图片生成视频”外,它还可以对现有视频进行扩展(向前或向后延长),或者根据用户提供的多个关键帧图片来生成中间的动态画面。 开发者为了满足不同用户的需求,发布了多个不同规模和类型的模型。比如,既有追求最高画质的13B(130亿参数)模型,也有为追求速度而经过“蒸馏”优化的轻量级模型,这些优化模型大大降低了对硬件的要求,甚至可以在消费级显卡上运行。
该项目在GitHub上完全开源,并提供了详细的使用说明和代码,方便开发者和研究人员在本地部署使用,或者进行二次开发和微调,以适应特定的应用需求。
功能列表
- 文本生成视频:输入一段详细的文字描述,模型可以将其转化为动态视频。
- 图片生成视频:以一张静态图片为基础,生成具有动态效果的视频。
- 视频扩展:可以对已有的视频片段进行向前或向后的内容延续,生成更长的视频。
- 关键帧动画:用户可以提供多个关键帧图片,模型会自动生成流畅的过渡动画。
- 视频转视频:对现有视频进行风格转换或其他内容的修改。
- 多种模型可选:提供从20亿参数到130亿参数不等的多种模型,包括基础版、蒸馏版(distilled)和量化版(quantized),用户可以根据对速度和质量的需求来选择。
- 精准控制模型:发布了专门用于控制视频画面的模型,例如可以控制视频中人物的姿态(Pose Control)、画面的深度信息(Depth Control)或边缘线条(Canny Control)。
- 高分辨率与高帧率:最新的模型支持生成分辨率为1216x704像素、每秒30帧的视频。
- 长视频生成:最新版本支持生成长达60秒的视频。
- 开源与社区支持:代码在GitHub上开源,拥有活跃的社区,并提供了与ComfyUI等第三方工具集成的插件。
使用帮助
LTX-Video提供了多种使用方式,用户可以根据自己的技术背景和硬件条件选择最合适的一种。主要分为在线直接使用和本地部署两种。
在线使用
对于不想进行复杂配置的普通用户,最简单的方式是使用官方或社区提供的在线服务。这些服务通常已经部署好了模型,用户可以直接通过浏览器访问并使用。
- 访问在线平台:官方提供了LTX-Studio,同时在Fal.ai和Replicate等云平台上也部署了LTX-Video模型。
- 选择模型:在线平台通常会提供不同版本的模型选项,例如追求质量的
13B-dev
模型或追求速度的13B-distilled
模型。 - 输入内容:
- 如果是文本生成视频,在提示词(Prompt)输入框中,用英文详细、具体地描述你想要的画面和动态效果。描述得越细致,生成效果越好。
- 如果是图片生成视频,上传一张图片作为视频的起始帧。
- 调整参数(可选):可以根据需要调整视频的分辨率、时长、随机种子(seed)等参数。
- 生成视频:点击生成按钮,等待片刻即可获得视频结果。
本地部署
对于有一定技术基础和硬件条件的开发者,可以在自己的电脑上部署LTX-Video。
第一步:环境准备在开始之前,你需要确保电脑上安装了Python 3.10或更高版本,以及NVIDIA显卡和对应的CUDA驱动(版本12.2或更高)。
第二步:下载代码仓库使用Git工具将LTX-Video的官方代码库克隆到你的本地电脑。
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
第三步:安装依赖项目依赖一些Python库来运行。官方推荐创建一个虚拟环境来管理这些依赖,避免与系统中的其他项目冲突。
# 创建一个名为env的虚拟环境
python -m venv env
# 激活虚拟环境
# 在Windows上: env\Scripts\activate
# 在macOS或Linux上: source env/bin/activate
# 安装所有必需的库
python -m pip install -e .[inference]
如果你使用的是支持FP8运算的较新NVIDIA显卡(如Ada架构),还可以选择安装官方提供的FP8内核以获得更好的性能。
第四步:下载模型文件你需要从Hugging Face等平台下载预先训练好的模型文件(通常以.safetensors
为后缀),并将它们放置在指定的文件夹中。例如,在与ComfyUI结合使用时,模型文件需要放在ComfyUI/models/checkpoints/
目录下。
第五步:运行推理脚本安装完成后,你可以使用官方提供的inference.py
脚本来生成视频。
- 从图片生成视频:下面是一个基本命令的例子。你需要将
"PROMPT"
替换为你的英文提示词,IMAGE_PATH
替换为你的图片路径,并可以根据需要设置视频的高度、宽度和帧数。python inference.py \ --prompt "A beautiful sunset over the ocean, with waves crashing on the shore" \ --conditioning_media_paths ./my_image.png \ --conditioning_start_frames 0 \ --height 704 \ --width 1216 \ --num_frames 120 \ --seed 42 \ --pipeline_config configs/ltxv-13b-0.9.8-distilled.yaml
- 扩展现有视频:如果你想延长一个视频,可以使用下面的命令。注意,输入的视频片段帧数需要是8的倍数加1(例如9帧、17帧)。
python inference.py \ --prompt "PROMPT" \ --conditioning_media_paths YOUR_VIDEO.mp4 \ --conditioning_start_frames START_FRAME \ --height HEIGHT \ --width WIDTH \ --num_frames NUM_FRAMES \ --seed SEED \ --pipeline_config configs/ltxv-13b-0.9.8-distilled.yaml
与ComfyUI集成
ComfyUI是一个流行的图形化界面工具,用于创建和执行复杂的AI模型工作流。LTX-Video与ComfyUI有很好的集成,这也是官方推荐的使用方式,因为它能提供更高的输出质量和更灵活的控制。
- 安装ComfyUI:如果你还没有安装ComfyUI,需要先完成它的安装。
- 安装LTX-Video插件:访问
https://github.com/Lightricks/ComfyUI-LTXVideo/
,按照说明下载并安装LTX-Video的专属插件。 - 下载模型:将下载的LTX-Video模型文件放入ComfyUI的
models/checkpoints
文件夹。 - 使用工作流:在ComfyUI中,你可以加载官方或社区提供的JSON格式工作流文件。这些工作流已经预设好了复杂的节点连接,你只需要在界面上上传图片、输入提示词并点击生成按钮即可。
应用场景
- 创意内容和艺术创作艺术家和设计师可以利用LTX-Video,将脑海中的抽象概念或静态画作转化为生动的短视频,为数字艺术作品增添动态维度。
- 广告和社交媒体营销营销团队可以快速生成吸引眼球的视频广告或社交媒体内容。例如,输入产品图片和一段描述,就能生成一段展示产品特色的动态视频,大大降低了视频制作的门槛和成本。
- 影视制作和原型设计导演和编剧可以使用LTX-Video快速将剧本中的场景或分镜脚本转化为视频原型。这有助于团队在前期制作阶段更直观地预览和讨论画面效果,从而节省时间和沟通成本。
- 教育和演示教师或培训师可以将复杂的概念或流程通过视频形式进行展示。例如,输入一张流程图或几个关键步骤的图片,模型可以生成一个动态的教学演示视频。
- 个人娱乐和爱好普通用户可以简单地将自己的照片或有趣的想法转化为短视频,用于在社交平台分享或自娱自乐,体验AI创作带来的乐趣。
QA
- LTX-Video是免费的吗?是的,LTX-Video项目本身是开源的,你可以在GitHub上免费下载其代码和模型。 但是,如果你在本地运行,需要自己承担硬件成本;如果使用第三方的在线服务,可能会根据使用量收取一定费用。
- 我需要什么样的电脑才能运行LTX-Video?运行高质量的13B模型需要配备高端的NVIDIA显卡和较大的显存。但是,项目也提供了经过优化的“蒸馏”(distilled)和“量化”(quantized)模型,这些模型对硬件的要求较低,可以在一些消费级显卡(例如RTX 4060 8GB VRAM)上运行。
- 生成视频的效果不好怎么办?可以尝试以下方法改进效果:
- 优化提示词(Prompt):提示词是影响生成质量的关键。尽量使用具体、详细、富有画面感的英文描述,按照“主体动作-具体细节-角色外观-环境背景-镜头角度”的结构来组织语言。
- 调整参数:适当增加推理步数(Inference Steps)可以提升画质,但会增加生成时间。调整引导系数(Guidance Scale)也可能改善结果。
- 使用更高质量的模型:如果硬件允许,使用
ltxv-13b-0.9.8-dev
这样的高质量模型通常会得到更好的效果。 - 使用ComfyUI:官方推荐使用ComfyUI工作流,因为它能实现比基础脚本更好的输出效果。
- LTX-Video可以生成多长的视频?最新版本已经支持生成长达60秒的视频。 此外,你也可以利用它的视频扩展功能,通过多次迭代来生成更长的连续镜头。