10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

字节跳动发布 Vidi2 :AI 视频模型性能超越 Gemini 3 Pro,小时级素材直出剪辑方案

5小时前 AI最新动态 24 0
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

字节新视频模型Vidi2,理解能力超过了Gemini 3 Pro。

不仅会看还会“剪”,能根据数小时的素材和一个提示,生成JSON剪辑指令。

剪辑位置、台词、字幕、配乐等内容都完整涵盖,“照方抓药”之后效果be like:

这下子,电影里的小帅小美高光时刻,也能用AI批量生成了(手动狗头)。

一口气生成剪辑方案

Vidi2还能像剪辑师一样帮你处理素材。你只需要把一大堆原始素材给它,再说个大概的创意方向,它就能自己去构思剧本。

它会生成一份非常详细的剪辑清单,精确规定好每个镜头截取哪几秒、播放速度是多少、字幕用什么样式,连配合画面的吐槽旁白都会自动写好。

最后你只要照着这份清单渲染,就能直接导出一支有剧情、有配乐、有特效的完整视频。

能够实现这一操作的基础在于,Vidi2在视频理解上的表现确实很突出。

以往的模型可能只能告诉你某个画面大概出现在第几分钟,但Vidi2不仅能把时间段卡得很准,还能直接在画面上画个框,把你要找的人或物体实时圈出来。

这种精细的定位能力在处理长视频时非常关键,哪怕视频长达半小时,或者画面里的物体很小、运动很快,它也能稳稳地跟住。

从测试结果来看,它在这些任务上的准确度比GPT-5和Gemini 3 Pro都要高不少,基本解决了长视频里找不到关键细节的问题。

具体来说,Vidi2在核心的时空定位任务上取得了压倒性优势,其衡量时空对齐精度的关键指标(vIoU-Int.)高达60.3%,几乎是GPT-5(33.6%)的两倍,更是远超Gemini 3 Pro Preview(16.6%)。

特别是在超长视频处理上,Vidi2具有极高的稳定性,当视频时长超过一小时,Vidi2依然能保持38.7%的检索精度。

端到端时空定位

Vidi2最核心的技术突破在于实现了端到端的时空定位能力。

它能够在统一的输出中精准锁定目标事件的时间片段并同步生成空间边界框轨迹,从而解决长视频中复杂对象的持续追踪难题。

数据进入模型后,首先通过统一的编码接口进行处理,单张静态图像被直接视为时长为一秒的静音视频。

针对视频时长从十秒到三十分钟不等的跨度,模型采用了重新设计的自适应Token压缩策略,根据视频总时长动态调节信息密度,在处理短视频时保留高密度特征,面对长视频时则通过压缩降低负载。

经过编码与压缩的特征流随即进入模型核心。

Vidi2以Vidi1的架构为基础,将其中的模型替换成了Google最新的开源模型Gemma-3,并配合增强的视觉编码器构建起参数量达120亿的底座。

其关键是采用了分解注意力(Decomposed Attention)机制,把传统Transformer的全注意力运算拆解为视觉内部的对角注意力、文本自注意力及跨模态注意力三个独立部分。

该机制将多模态Token的计算复杂度从平方级降低为线性级,使模型能以有限显存处理长达一小时的视频流。

为了解决时空定位数据极度稀缺的难题,研发团队还设计了一套独特的数据合成路径,利用现有量图像级空间定位数据,通过滑动窗口算法来处理静态图像,在图像上模拟摄像机的运动轨迹。

这一过程将原始图像中的静态边界框动态映射到生成的每一个视频帧中,从而自动生成了随时间连续变化的边界框序列,在数据构造层面直接实现了将静态的空间定位扩展为动态的时间对齐。

此外,训练流程还引入了大量经过高精度人工标注的真实世界视频数据,以修正合成数据可能带来的分布偏差并进一步提升定位精度。

在最终训练阶段,Vidi2采用了时间感知多模态对齐策略(Temporal-aware Multimodal Alignment)。

这是一种分阶段、双向强化的训练机制,首先在合成与真实数据训练中,利用双向预测任务——根据时间戳预测密集字幕,以及根据文本反推时间范围——来训练模型对时间边界的敏感度。

随后在后训练阶段,融入了大量通用视频问答数据,通过回答开放式问题来验证并强化模型在视觉、听觉与文本之间的深层语义关联。

总之,在Vidi2当中,数据确实扮演了很重要的角色,如这位网友所说,谷歌Gemini和Veo 3做的好,是因为手里有YouTube当中的视频数据。

而手握大量短视频的字节,同样拥有自己的数据优势。

更多的数据,意味着更强大的模型,AI竞争的下一场,就看谁能拥有更多更好的数据了。

项目主页:https://bytedance.github.io/vidi-website/
技术报告:https://arxiv.org/abs/2511.19529

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:字节跳动发布 Vidi2 :AI 视频模型性能超越 Gemini 3 Pro,小时级素材直出剪辑方案
#Vidi2 #字节跳动 #AI视频模型 
收藏 1
PixVerse V5.5 正式发布,自动做分镜、配对白、加音效,整段短片一键生成
Flux 2 AI:免费AI图像生成器,无限出图+多帧故事板一键生成
推荐阅读
  • 即梦悄悄上线数字人新模型OmniHuman 1.5,会跑会跳,能唱能演,还能变脸
  • Cursor一发三连:免费 GPT-5、Cursor CLI、Cursor 1.4王炸发布!
  • 即梦AI图片3.0:AI文生图新王诞生!中文海报天花板「影视质感+文字精准+2K高清」
  • LiblibAI 重磅发布 Vidu Q2:视频多主体参考,更自然、更可控的生成体验
  • 谷歌领跑 AI 视频生成赛道:抢先 OpenAI Sora 推出 Veo 模型,可生成 1080P 高清视频
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
21301 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
19457 6月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14550 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
13402 11月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12800 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
11631 7月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
11543 7月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
10335 9月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
9274 11月前
Trae Pro 来了,终于可以告别排队了!这价格真香
7102 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 字节跳动发布 Vidi2 :AI 视频模型性能超越 Gemini 3 Pro,小时级素材直出剪辑方案
2 PixVerse V5.5 正式发布,自动做分镜、配对白、加音效,整段短片一键生成
3 DeepSeek刚刚上新:DeepSeek-Math-V2,直接开源 IMO 金牌数学模型
4 美团 LongCat 全新上线 AI 生图系列模型「LongCat-Image」!精准高效,AI 创作不设限
5 阿里巴巴通义实验发布全新图像模型:Z-Image(造相),1/3的参数达到商业模型的视觉质量
6 FLUX.2 发布:多参考一致性和文本渲染的明显提升,把图像生成放进生产流程,附官方提示词指南
7 TRAE SOLO 中国版,正式发布!完全免费!
8 最强模型易主!刚刚Claude Opus 4.5发布,发布即降价
9 麦肯锡《The State of AI》2025 年度报告:AI 的使用已成普遍,但真正把 AI“用好”的企业依然是少数
10 Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联