10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸

1月前 AI最新动态 3354 0

即梦全新影视级数字人「OmniHuman 1.5」上线一段时间了!大家的关注点可能都在即梦生图4.0上,其实AI视频生成也是“王炸”!

这款基于单张图像和音频的多模态数字人方案,凭借双人场景生成、超长视频连贯性、情感感知等突破性功能,在影视制作、虚拟主播、教育营销等领域掀起新一轮技术革命。

相较于之前的 Omnihuman 1.0,这次不只是上传音频和图片他帮你生成带有唇形同步的动态视频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。

模型能力

技术升级

OmniHuman-1.5并非简单迭代,而是对真实感与泛化能力的全面重构。

动作自然度飙升: 通过优化多模态运动条件混合训练策略,系统能精准解析音频中的节奏、语调,生成与真人无异的肢体动作。无论是演讲时的手势,还是舞蹈中的旋转,都能做到“音画同步”。

唇形同步精度达毫秒级: 针对动漫角色、虚拟偶像等非真人形象,系统通过风格迁移算法保持动作一致性,同时优化唇形生成逻辑,彻底告别“口型对不上”的尴尬。

情感感知让视频“有灵魂”: 系统可识别音频中的情绪(如愤怒、喜悦、悲伤),并自动调整人物表情。例如,输入一段激昂的演讲音频,视频中的人物会眉头紧锁、眼神锐利,增强感染力。

技术亮点

支持双人音频驱动: 首次实现多人场景交互,可生成对话、辩论甚至舞蹈合作视频,为虚拟直播、影视特效提供新可能。

超长视频生成: 通过帧间连接策略,支持生成超过1分钟的连贯视频,身份一致性误差率低于3%,满足演讲、MV等复杂需求。

应用场景

Omnihuman -1.5的突破性功能,正在重塑多个领域的创作逻辑:

影视制作: 快速生成虚拟演员视频,降低特效成本。例如,历史剧中的已故演员可“复活”参演,动漫角色可实时对口型配音。

虚拟主播: 主播无需露脸,上传一张照片即可生成动态形象,配合实时音频驱动,实现24小时不间断直播。

教育培训: 生成生动的教学视频,教师形象可配合知识点讲解做出手势,提升学生注意力。

广告营销: 品牌可定制虚拟代言人,根据不同产品调整形象风格(如科技感、亲和力),提升转化率。

实测体验

打开即梦官网首页,切换到「数字人」

上传人物首帧图片,可以是真人或动漫人物

音乐选择支持选择即梦内置的音色库,当然也可以创建自己的音色库,只需要在「我的音色」这里去克隆你想用的音色,只需要 5 秒音频就行。

如果你自己有音频,这时候你需要点击下面的「上传音频」按钮,音频就会回填,这时候角色说这部分就变成你上传的音频了不能打字。

还有一种情况是,你上传的画面里有多个角色,这时候即梦就会自动检测到,你就可以选择是图片中的哪个角色在说话,可以选单个,也可以选全部。

关于动作描述,这里可以用他们推荐的提示词模板,尽量遵循清晰、不矛盾、少否定,多写具体的内容,少用文学化和形容词表达。

这里苏米找了一段播客素材,实现双人对话场景,一起来看看效果:

提示词:角色对着镜头说话,说的同时也会与右边的角色产生眼神互动,说话情绪活力,轻松愉悦的氛围,在聊八卦的感觉,手部也会相应的与说话同步摆动

因为有两个角色,所以需要分两次分别导入音频生成,最后拼出来的效果给大家看看~

官方介绍和演示: https://omnihuman-lab.github.io/v1_5/

技术要求

数字人使用基础参数要求:

输入图片格式 JPG, PNG 等
图片大小限制 < 5MB, < 4096×4096
音频时长 推荐 ≤ 15 秒,最大 30 秒
支持分辨率 720P, 1080P
生成模式 快速模式, 大师模式
支持语言 不限,中、英、日等常见语种表现更佳

提示词指南:

把编写提示词当成讲故事,使用连贯自然的自然语言,尽可能减少孤立词汇的堆砌。

只描述动态的事件即可,图片中已经包含的静态特征(角色穿什么衣服、戴什么首饰等等)无需描述。

提示词需要遵循清晰、不矛盾、少否定的原则。使用具体而非抽象的描述,分步骤引导。

最佳实践模板:

镜头运动 + 说话角色情绪 + 说话状态(说话/哭泣/唱歌/...) + 具体动作 + (可选)背景事件/其他角色的动作

总结

整体的感觉,对于长内容的对话可能在细节上还是会有一些不太贴合,包括动作的细节,但整体感受还是非常自然了,从语气和表情、动作的关联,都能够达到非常好的一致性!

从OmniHuman-1到1.5,字节跳动用技术迭代证明:AI视频生成的终极目标,不是“替代人类”,而是“赋能每个人”。

当一张照片、一段音频就能承载创意,当非专业用户也能轻松制作影视级内容,创作的门槛正被彻底打破。

AI数字人,正在重新定义“创作”的边界!

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸
#AI数字人 #即梦 #OmniHuman 
收藏 1
腾讯开源混元图像模型 3.0(HunyuanImage 3.0),免费开放使用!
frontend-design skill:用了这套提示词,我的Claude Skills 生成专业设计感前端页面
推荐阅读
  • Kimi全新Agent模型OK Computer发布并开启订阅
  • Augment Code:又一款AI编程工具,号称取代Cursor指日可待,还真有点东西!
  • Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
  • 震惊!这个开源项目挖了Cursor、v0、Manus等完整的各大AI模型官方系统提示词
  • Warp 2.0:这个媲美Claude code的AI终端工具,刚更新就放出免费领一个月Pro会员!
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
20570 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
18660 6月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14458 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13201 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12685 6月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11400 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
10792 6月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10079 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9095 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
6787 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 破纪录!刚刚Cursor拿下23亿美元融资,火速接入GPT-5.1
2 Gemini 3 悄悄上线,美观和信息丰富的设计
3 OpenAi 刚刚在 ChatGPT 中试点群聊功能
4 GPT-5.1来了,这次小迭代GPT-5.1 Instant和GPT-5.1 Thinking该怎么选、怎么用
5 从存起来到用起来,ima2.0让知识流动起来
6 字节连放两个大招:Trae SOLO模式限时免费!Doubao-Seed-Code 接入Trae CN
7 Kimi K2 Thinking:开源里Agent能力领先,但“话多”会拉高成本与时延
8 Google AI 模式(AI Mode)全面开放
9 Trae 突发!即日起 Trae AI 下架所有 Claude 模型
10 谷歌确认今年内发布 Gemini 3,但时间可能顺延
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联