10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗

3周前 AI开源项目 533 0

视频创作中,最耗时的往往不是脚本撰写和录制,而是后期剪辑。打开剪辑软件,一帧帧剪掉"呃"、"嗯"等语气词片段,配字幕、加动效,手动打点、反复试听,一段几分钟的视频可能需要数小时剪辑。

最近 GitHub 上开源了一个名为 video-use 的 Claude Code Skill,让 AI 自动完成视频剪辑流程。

video-use 项目界面

项目背景

video-use 来自 Browser Use 团队,他们之前开源的 browser-use 项目让 AI 自动操控浏览器,已收获 8.8 万 Star。这次他们将 AI 操控浏览器的思路应用到视频编辑领域,制作成 Claude Code Skill。

安装后无需打开任何剪辑软件,只需将视频素材放入指定文件夹,然后用自然语言告诉 Claude Code 需求即可。

使用示例

核心功能

只需一句"把 xxx 文件夹里的视频素材剪辑成一条可发布的视频",video-use 就能:

  • 自动盘点素材并给出剪辑方案
  • 识别并剪掉口头禅、语气词片段
  • 对每段素材进行色彩调级
  • 每个剪切点自动添加 30 毫秒音频淡入淡出
  • 自动生成并添加字幕
  • 输出剪辑完成的视频到素材目录旁的文件夹

技术架构:双层处理策略

video-use 的核心创新在于其底层实现逻辑。传统多模态模型处理视频时,通常将视频拆分成帧逐帧识别,一条视频轻松消耗数千万 Token。

video-use 采用双层架构,大幅降低 Token 消耗:

第一层:音频层(常驻加载)

通过 ElevenLabs Scribe 转写,生成带词级时间戳的文字稿,同时标注说话人、笑声、叹息等信息。词级时间戳是剪辑精度的关键,其他主流转写工具通常只提供句级时间戳或不区分说话人。

第二层:视觉层(按需调用)

遇到模糊停顿、重录比对、剪辑点确认等关键决策时,timeline_view 会现场合成一张图片供 LLM 参考,包含胶片缩略图、音频波形、单词标签等叠加信息。

双层架构示意图

这个思路与 browser-use 项目一脉相承——用结构化数据替代原始图像输入,大幅降低 Token 消耗并提升处理效率。

自检与迭代机制

渲染完成后,工具会在每个剪切点进行自检,扫描画面跳切、爆音、字幕遮挡等问题。发现问题自动回炉重新渲染,最多重试 3 次,通过后才提交预览。

整个流程为:转录 → 打包 → 模型推理 → 生成剪辑决策 → 渲染 → 自检。每一步策略都需要用户确认才执行,确保剪辑过程可控。

项目上下文管理

每次剪辑的上下文会写入 project.md 文件。对于课程、长播客、连载 vlog 等连续性项目,video-use 能从上次的状态继续,无需重复说明背景信息。

安装与使用

安装流程简单:

# 克隆项目到本地
git clone https://github.com/browser-use/video-use
cd video-use

# 链接到 Claude Code 的 skills 目录
ln -s "$(pwd)" ~/.claude/skills/video-use

# 安装依赖(ffmpeg 必装,yt-dlp 可选)
pip install -e .
brew install ffmpeg
brew install yt-dlp

# 配置 ElevenLabs API Key 到.env 文件

安装配置示例

目前项目处于早期阶段,复杂场景可能需要多轮对话才能达到预期效果。描述越具体,结果越准确。

苏米注

video-use 的真正价值不在于功能本身,而在于其方法论的复用性。browser-use 将 LLM 从"看网页截图"换成"读结构化 DOM",video-use 将"看视频帧"换成"读带时间戳的转录文本"。

这种思路的核心是:用结构化、低 Token 消耗的数据表示替代原始高维输入。随着 Opus 4.7 等模型学会自我验证,AI Agent 正从"协助完成某一步"向"独立交付完整成果"演进。

未来创作者可以把更多精力留给创意本身,而非重复、琐碎的执行环节。

项目地址:https://github.com/browser-use/video-use

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗
#browser-use #video-use #视频剪辑 #Skill 
收藏 1
GPT-image-2 灰度测试:文字渲染与界面理解能力大幅升级,中文生成不再是短板
Hermes Desktop v0.5.0 发布:原生 macOS 桌面伴侣,SSH 直连无网关
推荐阅读
  • xan:不到6MB的终端CSV处理瑞士军刀! 这个更快的数据分析命令行工具
  • Fish Audio:开源语音合成突破性进展,中文TTS性能超越商用方案
  • Refly:从自然语言到生产级Agent,全球首款开源 Agent Skills 开源构建平台
  • Hermes Desktop v0.5.0 发布:原生 macOS 桌面伴侣,SSH 直连无网关
  • abtop:AI Agent 实时监控终端工具,Token/上下文/限速一目了然
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9179 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8583 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6583 4月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6116 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5869 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5803 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5621 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5468 8月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5376 7月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
5269 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 html-ppt-skill:20天3600星的神级PPT生成工具
2 patent-disclosure-skill:代码文档一键生成专利交底书
3 Advanced-PassGen:跨平台密码生成器,支持批量导出纯文本/CSV/JSON
4 Maigret:输入用户名,查遍 3000+ 网站的开源情报工具
5 PraisonAI:5行代码部署24小时AI智能体团队,7300+ Star
6 Vibe Trading:用自然语言做量化交易,AI 驱动的多代理金融工作台
7 WSL Dashboard:10 年来终于有人做了 WSL 可视化管理
8 AiToEarn:面向一人公司(OPC)和内容创作者的AI 内容营销全自动化平台
9 Google AI Edge Gallery:把大模型装进口袋,支持 iOS 和 Android 系统的端侧 AI 神器
10 abtop:AI Agent 实时监控终端工具,Token/上下文/限速一目了然
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联