当前位置：首页 » AI编程开发

Codex 视频工作流实战：6 个开源 Skills，让 AI 自动完成剪辑全流程

1月前 AI编程开发 5419 0

上周我花了三天时间，剪了一条 3 分钟的产品视频。先是打字幕，再是删停顿，然后调色，然后加片头动画——每一步都像在跟软件打架。

直到我发现 GitHub 上有一批人，正在用 Codex 把这整条流水线，压缩成几句话。他们把这套做法叫做 Codex Skills——给 AI Agent 配上一套"视频剪辑操作手册"，让 Codex 自己完成脚本、分镜、剪辑和包装。

苏米注：很多人以为 Codex 是 2021 年那个辅助写代码的老工具。不是。2025 年 OpenAI 重新发布了全新的 Codex，它是一个自主运行的 AI 编程 Agent，底层跑的是专门针对软件工程任务强化训练的 codex-1 模型。

Codex CLI 三步上手

你可以通过三种方式使用 Codex：ChatGPT 网页端、Codex CLI（命令行 Agent）、Codex 桌面 App。本文重点讲 CLI 版本。

第一步：安装依赖

npm install -g @openai/codex

确保你的机器安装了 Node.js 22 及以上版本，终端运行 node --version 验证。

第二步：配置 API Key

export OPENAI_API_KEY="***"

去 platform.openai.com 生成你的 API Key，然后在终端里安全写入。

第三步：进入项目目录，启动 Codex

cd /your/project
codex

启动后你会看到一个交互式终端界面（TUI）。直接用中文或英文输入你想做的事，Codex 会提出方案，等你审批之后执行。

关键概念：AGENTS.md 和 Skills

在项目根目录创建一个 AGENTS.md 文件，相当于给 Codex 写一份"项目说明书"——告诉它这个项目的代码规范、测试要求、不能碰哪些文件。Codex 每次执行任务都会先读这个文件。这是让 Codex 稳定输出的核心机制。

Codex Skills 的本质是一个 SKILL.md 文件，里面写满了针对某个特定任务的操作规范、工具用法、踩坑提示。你把它放到项目的 Skills 目录里，Codex 执行相关任务时就会自动读取、遵守。

一句话总结：AGENTS.md 告诉 Codex"在这个项目里怎么工作"，SKILL.md 告诉 Codex"做这件具体的事，要按什么规范来"。

六个视频 Skills 逐一拆解

① HyperFrames：推文一键生成动效视频

GitHub：HeyGen-Official/HyperFrames

HyperFrames 是 HeyGen 在 2026 年 4 月开源的 HTML 视频渲染框架，Apache 2.0 协议，没有渲染配额限制。它做了一件反直觉的事：把视频帧变成网页。你用 HTML、CSS、JavaScript 写场景，HyperFrames 用浏览器引擎 + FFmpeg 把它渲染成 MP4。

这对 Codex 特别重要——LLM 在训练数据里看过海量 HTML，写 HTML 对它来说远比写 React+Remotion 更自然、更准确。

# 克隆 HyperFrames
git clone https://github.com/HeyGen-Official/HyperFrames.git
cd HyperFrames && npm install

# 在 Codex 里直接提需求（中文也行）
codex
> 帮我用 HyperFrames 制作一个30秒产品介绍视频，主色调蓝白，带文字动画和产品截图入场效果

# 渲染成片
npx hyperframes render videos/product-intro

② video-use：让 Codex 自动剪真人素材

GitHub：browser-use/video-use

browser-use 出品，解决的是真人录制视频的后期问题。你把原始素材扔到一个文件夹里，然后跟 Codex 说你想要什么效果，最后得到 final.mp4。

它能做的事包括：自动删除停顿词（嗯、啊、false starts）、自动字幕（2 词大写块，风格可定制）、自动调色（暖色电影感或中性对比）、每个剪辑点还有 30ms 淡入淡出防止爆音。

核心逻辑值得学习：它先分析语音转录稿，找出静音间隔和发言边界来决定剪切点——transcript 是表面，音频是主导，画面跟着走。

③ Remotion Skills：用 React 批量制作模板视频

GitHub：remotion-dev/remotion

Remotion 是用 React 写视频的框架，已有 39K+ GitHub Stars，每月 90 万次安装。它的核心优势是把视频生产接入软件工程工作流：代码即视频，版本可控，可测试，可批量渲染。

它专门出了 29 个 Agent Skills 规则文件，覆盖 3D 动画、音频处理、字幕、图表、过渡效果等细分场景，每周被 Codex、Claude Code、Cursor 调用超过 15.5 万次。

适合场景：数据视频（把 CSV/JSON 数据渲染成动态图表视频）、固定栏目（周报、产品更新的模板化视频）、批量个性化内容。

④ Generative Media Skills：调用 AI 模型生成素材

如果前三个 Skills 处理的是"怎么把素材变成视频"，Generative Media Skills 解决的是"怎么生成素材"。它封装了调用主流 AI 生成模型的操作规范——文生图、文生视频、文生音频——以及如何把生成结果无缝接入视频渲染流水线。

对于 UGC 内容创作者、AI 短片导演来说，这个 Skill 的价值在于：把"生成 → 筛选 → 剪辑 → 合成"这条链路，变成 Codex 的一次对话。

⑤ videocut-skills：适合中文创作者的剪辑 Agent

专门为中文内容生态设计的视频剪辑 Skill。覆盖三个场景：中文字幕处理（适配普通话、粤语等多种发音风格）、竖屏短视频（适配抖音、视频号比例和节奏）、以及口播内容的精剪逻辑。

如果你主要是做视频号或者抖音内容，英文 Skill 对中文语境的处理往往不够准确——停顿识别误判、字幕断句不符合中文阅读习惯。videocut-skills 在这些点上做了针对性优化。

⑥ seedance2-skill：为即梦 Seedance 写专业视频提示词

GitHub：dexhunter/seedance2-skill

即梦的 Seedance 2.0 是字节跳动的多模态 AI 视频生成模型，支持文字、图片、视频、音频多种输入。但大多数人不知道怎么写出高质量的生成 Prompt。

seedance2-skill 就是把 Seedance 的镜头语言、运镜规范、参考素材引用方式、逐秒分镜格式——全部写进 SKILL.md 里。你只需要告诉 Codex 你想拍什么场景，Skill 让 Codex 自动输出符合 Seedance 要求的专业 Prompt。

三种典型工作流，直接抄作业

场景	工具组合	说明
推文转视频	HyperFrames	把文章或产品介绍文字发给 Codex，说明风格，Codex 生成 HTML 场景文件，HyperFrames 渲染成动效 MP4
真人口播精剪	video-use + HyperFrames	video-use 负责粗剪（删停顿、加字幕、调色），HyperFrames 负责生成片头、转场动画、结尾 CTA 屏
AI 短剧与广告	seedance2-skill + 即梦 + video-use	先用 seedance2-skill 写分镜 Prompt，即梦生成 AI 视频素材，video-use 把素材剪辑合成

上手之前，这几个坑要先知道

Node.js 版本必须是 22+：很多人第一步就卡在这里，装了 Codex 却运行不了
HyperFrames 需要本地安装 FFmpeg：渲染视频依赖 FFmpeg 做最终合成，没装会卡在最后一步。macOS 用 brew install ffmpeg，Linux 用 apt 安装
先在 Git 分支上跑 Codex：把 Codex 的工作放在专门的 feature branch，不要直接在 main 分支上操作
AGENTS.md 越具体越好：很多人发现 Codex 生成质量不稳定，根源是没有写 AGENTS.md
不要只让 Codex 做修改，让它同时跑验证：每次任务结束，提示它运行相关的检查命令（ffprobe 验证、字幕对齐检查）

总结

这套工具的出现，改变的不只是视频剪辑的效率，而是视频生产的权力结构。过去，一个能交付完整视频的团队，需要编导、剪辑、调色、字幕、动效五个角色。现在，一个懂得配置 Codex Skills 的人，可以撑起全流程。

苏米观察：你不需要成为全栈工程师，你只需要学会一件事：用语言描述你想要的结果，然后让工具帮你翻译成执行。Codex + Skills 的组合，正在把视频生产从"专业技能"变成"自然语言指令"。对于内容创作者来说，这是降低门槛的最好时机。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Codex 视频工作流实战：6 个开源 Skills，让 AI 自动完成剪辑全流程

请登录后发表评论