10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗

1小时前 AI开源项目 9 0

视频创作中,最耗时的往往不是脚本撰写和录制,而是后期剪辑。打开剪辑软件,一帧帧剪掉"呃"、"嗯"等语气词片段,配字幕、加动效,手动打点、反复试听,一段几分钟的视频可能需要数小时剪辑。

最近 GitHub 上开源了一个名为 video-use 的 Claude Code Skill,让 AI 自动完成视频剪辑流程。

video-use 项目界面

项目背景

video-use 来自 Browser Use 团队,他们之前开源的 browser-use 项目让 AI 自动操控浏览器,已收获 8.8 万 Star。这次他们将 AI 操控浏览器的思路应用到视频编辑领域,制作成 Claude Code Skill。

安装后无需打开任何剪辑软件,只需将视频素材放入指定文件夹,然后用自然语言告诉 Claude Code 需求即可。

使用示例

核心功能

只需一句"把 xxx 文件夹里的视频素材剪辑成一条可发布的视频",video-use 就能:

  • 自动盘点素材并给出剪辑方案
  • 识别并剪掉口头禅、语气词片段
  • 对每段素材进行色彩调级
  • 每个剪切点自动添加 30 毫秒音频淡入淡出
  • 自动生成并添加字幕
  • 输出剪辑完成的视频到素材目录旁的文件夹

技术架构:双层处理策略

video-use 的核心创新在于其底层实现逻辑。传统多模态模型处理视频时,通常将视频拆分成帧逐帧识别,一条视频轻松消耗数千万 Token。

video-use 采用双层架构,大幅降低 Token 消耗:

第一层:音频层(常驻加载)

通过 ElevenLabs Scribe 转写,生成带词级时间戳的文字稿,同时标注说话人、笑声、叹息等信息。词级时间戳是剪辑精度的关键,其他主流转写工具通常只提供句级时间戳或不区分说话人。

第二层:视觉层(按需调用)

遇到模糊停顿、重录比对、剪辑点确认等关键决策时,timeline_view 会现场合成一张图片供 LLM 参考,包含胶片缩略图、音频波形、单词标签等叠加信息。

双层架构示意图

这个思路与 browser-use 项目一脉相承——用结构化数据替代原始图像输入,大幅降低 Token 消耗并提升处理效率。

自检与迭代机制

渲染完成后,工具会在每个剪切点进行自检,扫描画面跳切、爆音、字幕遮挡等问题。发现问题自动回炉重新渲染,最多重试 3 次,通过后才提交预览。

整个流程为:转录 → 打包 → 模型推理 → 生成剪辑决策 → 渲染 → 自检。每一步策略都需要用户确认才执行,确保剪辑过程可控。

项目上下文管理

每次剪辑的上下文会写入 project.md 文件。对于课程、长播客、连载 vlog 等连续性项目,video-use 能从上次的状态继续,无需重复说明背景信息。

安装与使用

安装流程简单:

# 克隆项目到本地
git clone https://github.com/browser-use/video-use
cd video-use

# 链接到 Claude Code 的 skills 目录
ln -s "$(pwd)" ~/.claude/skills/video-use

# 安装依赖(ffmpeg 必装,yt-dlp 可选)
pip install -e .
brew install ffmpeg
brew install yt-dlp

# 配置 ElevenLabs API Key 到.env 文件

安装配置示例

目前项目处于早期阶段,复杂场景可能需要多轮对话才能达到预期效果。描述越具体,结果越准确。

苏米注

video-use 的真正价值不在于功能本身,而在于其方法论的复用性。browser-use 将 LLM 从"看网页截图"换成"读结构化 DOM",video-use 将"看视频帧"换成"读带时间戳的转录文本"。

这种思路的核心是:用结构化、低 Token 消耗的数据表示替代原始高维输入。随着 Opus 4.7 等模型学会自我验证,AI Agent 正从"协助完成某一步"向"独立交付完整成果"演进。

未来创作者可以把更多精力留给创意本身,而非重复、琐碎的执行环节。

项目地址:https://github.com/browser-use/video-use

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗
#browser-use #video-use #视频剪辑 #Skill 
收藏 1
GPT-image-2 灰度测试:文字渲染与界面理解能力大幅升级,中文生成不再是短板
Hermes Desktop v0.5.0 发布:原生 macOS 桌面伴侣,SSH 直连无网关
推荐阅读
  • PinMe:为 AI 生成的小项目而生的极简部署工具,GitHub 爆火AI前端部署神器
  • AionUi:20多个AI命令行编程工具的统一图形界面,19.2K Star的开源替代方案
  • BentoPDF:一款真正零上传的浏览器端PDF工具箱,开源可自部署
  • 手机也能远程操控Claude Code?Happy Coder让你随时随地接管AI任务
  • MuMuAINovel:开源本地部署的AI智能小说创作工作台
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
8862 6月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
7902 7月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6037 3月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5638 2月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5391 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5281 7月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5161 6月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5132 7月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
4998 6月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
4721 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Hermes Desktop v0.5.0 发布:原生 macOS 桌面伴侣,SSH 直连无网关
2 video-use 开源:Claude Code 自动视频剪辑 Skill,双层架构大幅降低 Token 消耗
3 Learn Claude Code 开源:真正的 Agent Harness 工程实战,12 课程从零构建 AI 智能体
4 说人话 Skill 详解:如何去除 AI 生成内容的翻译腔和工程师腔
5 Google TimesFM 开源详解:1000 亿时间点预训练,零样本时间序列预测模型
6 Claude Code 生成专业图表的 15 个 Skills:覆盖 7 种渲染引擎的完整指南
7 web-access Skill 全解析:让 AI 像真人一样浏览网页的联网操作工具
8 Hermes Web UI 汉化版发布:8 平台统一管理的 AI 对话控制台
9 5个Claude Skill覆盖你的可视化全场景,用文字直接生成图表
10 MemPalace 开源项目详解:本地 AI 记忆系统,96.6% 召回率业界领先
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联