10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

JoyAI-Echo:京东开源长视频生成框架,角色一致性新突破

1小时前 AI开源项目 10 0

Sora 关闭之后,AI 视频赛道竞争愈发激烈。国产方面,可灵、即梦、海艺都在发力,但长视频角色一致性仍是行业公认难题。最近京东开源了 JoyAI-Echo,在 GitHub 上短短两周获得 1600+ Star。

图片 1

JoyAI-Echo 是什么

JoyAI-Echo 是京东 JoyFutureAcademy 团队开发的长音频和视频生成框架。它的核心能力是:在几分钟的视频中,即使切换多个镜头,人物的脸部、声音和服饰都能保持一致,不会出现越拍越不像的情况。

图片 2

6 大核心技术

1. 跨模态记忆库

解决「角色老变脸」的问题。AI 每次生成新镜头时通常没有记忆,不知道上一个镜头里主人公的样子。JoyAI-Echo 给 AI 配上了「记忆库」,当角色第一次出现时记录脸型、声音和穿着等特征,生成后续镜头时从记忆库提取信息作为条件。

该记忆库将视觉与听觉结合,不仅保存人脸照片,还保存声音。生成新镜头时,脸和声音都是同一个人。

图片 3

官方测评数据显示,语音内容正确率为 0.8646,用户喜好测试中音频质量达 81.7%,优于其他产品。

图片 4

2. DMD 分布匹配蒸馏

解决长视频生成太慢的问题。传统多步扩散模型生成几秒到几十秒视频耗时很长,角色一致性越高计算量越大、速度越慢。JoyAI-Echo 使用 DMD 分布匹配蒸馏技术将多步扩散压缩为少步推理,实现约 7.5 倍速度提升,且不降低角色一致性。

3. 音视频联合生成

解决「声音乱变」的问题。传统方式是先制作视频再用外部工具配音,口型和台词难以对上。JoyAI-Echo 一个管道同时输出视频和声音,对白、环境音和背景音乐一起产生,口型与台词同步生成,无需后期人工修改。

音频参数:采样率 16000Hz、梅尔频谱 bins 为 128、窗函数长度 96,保证音质和画面同步。

图片 5

4. 对话式编辑

解决修改成本高的问题。JoyAI-Echo 提供 Director Agent(导演助理)功能,可以说「把第三个镜头里的主人公换上红色的衣服」,它只会修改这个镜头,无需从头重新制作整个视频。该功能目前处于未发布阶段。

5. 显存优化方案

解决硬件门槛高的问题。JoyAI-Echo 默认配置需要 46-50GB 显存,官方建议使用 H100 或 A100。降级方案:将默认 241 帧改为 121 帧,显存占用大幅减少。项目提供 ComfyUI 集成方案(ComfyUI_JoyAI_Echo 节点包),支持在 48GB 显存下热切换,每个镜头可添加注释并实时预览。

图片 6

安装使用

最简单的尝试方式是克隆仓库:

git clone https://github.com/jd-opensource/JoyAI-Echo.git
conda env create -f environment.yml
conda activate echo-long

下载权重是最大门槛:需要从 HuggingFace 下载约 46GB 模型文件,还有 gemma-3-12b 文本编码器约 24GB。

在 prompts 目录下创建 JSON 格式提示文件,使用 python inference.py 生成视频。项目提供 Prompt Enhancer 功能,可将简短故事想法变成有组织的镜头描写,包含角色、动作、风格、镜头、背景、音效等。

当前限制

  • 不支持 I2V(图像到视频),只能由文字生成,不可使用图片作为起始帧
  • LTX-2 Community License 仅用于学术研究及非商业目的,商业用途需联系 Lightricks
  • 目前只开放推理代码及权重,未开放训练代码
  • Director Agent 和 Echo-SR 超分模块标注为待发布

总结

JoyAI-Echo 支持本地部署,视频素材不用上传云端,所有数据本地处理,隐私性更高。对于经常制作长视频、在意人物一致性的用户来说比较有优势。

苏米注:JoyAI-Echo 的跨模态记忆库和音视频联合生成是解决长视频一致性问题的有效思路。虽然硬件门槛不低(46-50GB 显存),但对于有相关配置的用户来说值得尝试。

开源地址:https://github.com/jd-opensource/JoyAI-Echo

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:JoyAI-Echo:京东开源长视频生成框架,角色一致性新突破
#JoyAI-Echo #京东 #开源项目 #AI视频 #长视频 
收藏 1
Seedance 2.0 Skill OS:AI 视频生成的制片人工作流,GitHub 开源项目解析
这是最后一篇
推荐阅读
  • Twake Drive:用 Node.js 自建私人网盘,10分钟完成部署
  • SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
  • Vue Skills 发布:尤雨溪分享的这个vue-skills到底有多重要!
  • Star OfficeCLI:零依赖 AI 全包 Word Excel PowerPoint
  • CopilotKit 开源:33.6K Star 的 Agentic App 基础设施,AG-UI 协议全解析
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9682 8月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9648 9月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7582 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6717 4月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6685 6月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6611 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6522 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6477 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5833 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5781 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 JoyAI-Echo:京东开源长视频生成框架,角色一致性新突破
2 Seedance 2.0 Skill OS:AI 视频生成的制片人工作流,GitHub 开源项目解析
3 Ponytail:让 AI 代码减少 80% 的开源插件,2 天斩获 18000+ Star
4 告别 AI 味!stop-slop 让 Claude 写出真正像人说的话
5 Oh-My-Codex:把 OpenAI Codex 武装成工业级智能体
6 Open-Generative-AI:200+ 模型集于一身的开源 AI 图像视频创作平台,GitHub 19.3K Star
7 Career-Ops 开源多代理 AI 求职系统:53.5K Star 的 AI 反选公司实战指南
8 ai-avatar-bot:一行代码给你的网站加上 AI 虚拟人,支持语音对话
9 cmux:AI 终端管理新利器,5 个月 2.2 万 Star 的 Agent 并行管理工具
10 AI Skills For Real Engineers:Matt Pocock 开源的 Agent 开发管线,GitHub 120K+ Star
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联