京东最近在 AI 视频赛道发布了 JoyAI-Echo,一个专为分钟级多镜头故事生成设计的长音视频生成框架。目前已在 GitHub 和 Hugging Face 全面开源。
JoyAI-Echo 直接针对 AI 长视频生成的三大核心痛点:角色容易变脸、声音忽高忽低、生成速度慢。它不仅能生成最长 5 分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中保持高度一致,还支持用自然语言进行局部修改,无需重跑整条视频。

核心技术创新
1. 跨模态音视频记忆库
JoyAI-Echo 内置了专门的记忆机制,通过 Slot-Paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系,确保 5 分钟长视频中角色不崩、声音不飘。
2. 7.5 倍推理加速
通过记忆驱动后训练与 Distribution Matching Distillation(DMD)技术,实现了约 7.5 倍的推理加速。研发团队创新提出了一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 DMD 技术,将多步扩散推理压缩为少步推理,大幅提升生成速度。
3. 对话式编辑
引入智能"导演助理"——Director Agent,让长视频第一次实现"对话式编辑"。用自然语言说需求,它会自动拆分成剧本、角色、场景和镜头。哪里不满意,直接用对话方式告诉它修改,只重新生成有问题的局部镜头,不用重跑整条视频。
4. 实时超分模块
配套专门的实时超分模块,支持两档分辨率提升:
- 736×1280 → 1152×1920
- 736×1280 → 1472×2560
通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟约束下也能保持稳定的高清表现。
快速上手
1. 克隆仓库
git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo
2. 创建环境
参考环境:Python 3.11 + PyTorch 2.8 + CUDA 12.8
使用 conda:
conda env create -f environment.yml
conda activate echo-long
或使用 uv:
uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt
注意:ffmpeg 必须在 PATH 中可用(用于镜头拼接)。
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg
3. 下载权重
下载 JoyAI-Echo 发布检查点和 Gemma 文本编码器,放在 checkpoints/ 目录下:
| 文件 | 描述 | 大小 |
|---|---|---|
| echo-longvideo-release.safetensors | 完整模型(transformer + VAE + vocoder) | ~46 GB |
| gemma-3-12b-it | 指令微调模型(文本编码器) | ~24 GB |
checkpoints/
+-- echo-longvideo-release.safetensors
`-- gemma-3-12b/
4. 编写故事提示词
项目提供了提示词增强器,将简短的故事扩展为结构良好的镜头提示词:
prompts/long_story_writer_system_prompt.md:用于长、多镜头视频prompts/short_story_writer_system_prompt.md:用于单镜头短视频
在 prompts/ 下创建 JSON 文件,每个字符串是一个完整镜头。每个字符串中按顺序编写:
| 部分 | 描述 |
|---|---|
| 角色与主体 | 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色 |
| 动作与对话 | 主体做什么和说什么 |
| 风格 | 整体视觉和情感美学 |
| 镜头运动 | 镜头类型和构图或运动 |
| 背景 | 主体背后的设置和场景细节 |
| 音效与 BGM | 场景中的声音和背景音乐 |
5. 运行推理
python inference.py
这会加载模型一次,并处理 prompts/ 下的所有提示文件。
注意:推理管道针对低 VRAM GPU 优化。默认设置(25 fps × 241 帧 × 1280 × 736)下,峰值 GPU 使用量约为 46–50 GB。
总结
JoyAI-Echo 用四项实打实的技术创新,打破了长视频生成的"三角问题":跨模态音视频记忆库解决角色变脸、DMD 蒸馏技术实现 7.5 倍加速、Director Agent 带来对话式编辑、轻量化实时超分保证高清输出。
苏米注:这个项目对长视频创作者来说很有价值。46-50GB 的 VRAM 需求意味着需要高端 GPU(如 A100 80GB),但开源权重和 ComfyUI 节点集成降低了使用门槛。如果硬件条件允许,值得尝试。