当前位置：首页 » AI开源项目

JoyAI-Echo开源：京东5分钟长视频生成框架，角色不崩+对话式编辑

1小时前 AI开源项目 10 0

京东最近在 AI 视频赛道发布了 JoyAI-Echo，一个专为分钟级多镜头故事生成设计的长音视频生成框架。目前已在 GitHub 和 Hugging Face 全面开源。

JoyAI-Echo 直接针对 AI 长视频生成的三大核心痛点：角色容易变脸、声音忽高忽低、生成速度慢。它不仅能生成最长 5 分钟的连续故事视频，角色身份、视觉形象和声音音色在整个过程中保持高度一致，还支持用自然语言进行局部修改，无需重跑整条视频。

核心技术创新

1. 跨模态音视频记忆库

JoyAI-Echo 内置了专门的记忆机制，通过 Slot-Paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中，记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系，确保 5 分钟长视频中角色不崩、声音不飘。

2. 7.5 倍推理加速

通过记忆驱动后训练与 Distribution Matching Distillation（DMD）技术，实现了约 7.5 倍的推理加速。研发团队创新提出了一套记忆驱动的后训练流程，结合监督微调（SFT）、跨模态 RLHF 及 DMD 技术，将多步扩散推理压缩为少步推理，大幅提升生成速度。

3. 对话式编辑

引入智能"导演助理"——Director Agent，让长视频第一次实现"对话式编辑"。用自然语言说需求，它会自动拆分成剧本、角色、场景和镜头。哪里不满意，直接用对话方式告诉它修改，只重新生成有问题的局部镜头，不用重跑整条视频。

4. 实时超分模块

配套专门的实时超分模块，支持两档分辨率提升：

736×1280 → 1152×1920
736×1280 → 1472×2560

通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟约束下也能保持稳定的高清表现。

快速上手

1. 克隆仓库

git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo

2. 创建环境

参考环境：Python 3.11 + PyTorch 2.8 + CUDA 12.8

使用 conda：

conda env create -f environment.yml
conda activate echo-long

或使用 uv：

uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt

注意：ffmpeg 必须在 PATH 中可用（用于镜头拼接）。

# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg

3. 下载权重

下载 JoyAI-Echo 发布检查点和 Gemma 文本编码器，放在 checkpoints/ 目录下：

文件	描述	大小
echo-longvideo-release.safetensors	完整模型（transformer + VAE + vocoder）	~46 GB
gemma-3-12b-it	指令微调模型（文本编码器）	~24 GB

checkpoints/
+-- echo-longvideo-release.safetensors
`-- gemma-3-12b/

4. 编写故事提示词

项目提供了提示词增强器，将简短的故事扩展为结构良好的镜头提示词：

prompts/long_story_writer_system_prompt.md：用于长、多镜头视频
prompts/short_story_writer_system_prompt.md：用于单镜头短视频

在 prompts/ 下创建 JSON 文件，每个字符串是一个完整镜头。每个字符串中按顺序编写：

部分	描述
角色与主体	描述所有可见人物的外观，包括年龄、体型、发型、面部、服装，以及适用时的说话音色
动作与对话	主体做什么和说什么
风格	整体视觉和情感美学
镜头运动	镜头类型和构图或运动
背景	主体背后的设置和场景细节
音效与 BGM	场景中的声音和背景音乐

5. 运行推理

python inference.py

这会加载模型一次，并处理 prompts/ 下的所有提示文件。

注意：推理管道针对低 VRAM GPU 优化。默认设置（25 fps × 241 帧 × 1280 × 736）下，峰值 GPU 使用量约为 46–50 GB。

总结

JoyAI-Echo 用四项实打实的技术创新，打破了长视频生成的"三角问题"：跨模态音视频记忆库解决角色变脸、DMD 蒸馏技术实现 7.5 倍加速、Director Agent 带来对话式编辑、轻量化实时超分保证高清输出。

苏米注：这个项目对长视频创作者来说很有价值。46-50GB 的 VRAM 需求意味着需要高端 GPU（如 A100 80GB），但开源权重和 ComfyUI 节点集成降低了使用门槛。如果硬件条件允许，值得尝试。