上周我花了三天时间,剪了一条 3 分钟的产品视频。先是打字幕,再是删停顿,然后调色,然后加片头动画——每一步都像在跟软件打架。
直到我发现 GitHub 上有一批人,正在用 Codex 把这整条流水线,压缩成几句话。他们把这套做法叫做 Codex Skills——给 AI Agent 配上一套"视频剪辑操作手册",让 Codex 自己完成脚本、分镜、剪辑和包装。
苏米注:很多人以为 Codex 是 2021 年那个辅助写代码的老工具。不是。2025 年 OpenAI 重新发布了全新的 Codex,它是一个自主运行的 AI 编程 Agent,底层跑的是专门针对软件工程任务强化训练的 codex-1 模型。
Codex CLI 三步上手
你可以通过三种方式使用 Codex:ChatGPT 网页端、Codex CLI(命令行 Agent)、Codex 桌面 App。本文重点讲 CLI 版本。
第一步:安装依赖
npm install -g @openai/codex
确保你的机器安装了 Node.js 22 及以上版本,终端运行 node --version 验证。
第二步:配置 API Key
export OPENAI_API_KEY="***"
去 platform.openai.com 生成你的 API Key,然后在终端里安全写入。
第三步:进入项目目录,启动 Codex
cd /your/project
codex
启动后你会看到一个交互式终端界面(TUI)。直接用中文或英文输入你想做的事,Codex 会提出方案,等你审批之后执行。
关键概念:AGENTS.md 和 Skills
在项目根目录创建一个 AGENTS.md 文件,相当于给 Codex 写一份"项目说明书"——告诉它这个项目的代码规范、测试要求、不能碰哪些文件。Codex 每次执行任务都会先读这个文件。这是让 Codex 稳定输出的核心机制。
Codex Skills 的本质是一个 SKILL.md 文件,里面写满了针对某个特定任务的操作规范、工具用法、踩坑提示。你把它放到项目的 Skills 目录里,Codex 执行相关任务时就会自动读取、遵守。
一句话总结:AGENTS.md 告诉 Codex"在这个项目里怎么工作",SKILL.md 告诉 Codex"做这件具体的事,要按什么规范来"。
六个视频 Skills 逐一拆解
① HyperFrames:推文一键生成动效视频
GitHub:HeyGen-Official/HyperFrames
HyperFrames 是 HeyGen 在 2026 年 4 月开源的 HTML 视频渲染框架,Apache 2.0 协议,没有渲染配额限制。它做了一件反直觉的事:把视频帧变成网页。你用 HTML、CSS、JavaScript 写场景,HyperFrames 用浏览器引擎 + FFmpeg 把它渲染成 MP4。
这对 Codex 特别重要——LLM 在训练数据里看过海量 HTML,写 HTML 对它来说远比写 React+Remotion 更自然、更准确。
# 克隆 HyperFrames
git clone https://github.com/HeyGen-Official/HyperFrames.git
cd HyperFrames && npm install
# 在 Codex 里直接提需求(中文也行)
codex
> 帮我用 HyperFrames 制作一个30秒产品介绍视频,主色调蓝白,带文字动画和产品截图入场效果
# 渲染成片
npx hyperframes render videos/product-intro
② video-use:让 Codex 自动剪真人素材
GitHub:browser-use/video-use
browser-use 出品,解决的是真人录制视频的后期问题。你把原始素材扔到一个文件夹里,然后跟 Codex 说你想要什么效果,最后得到 final.mp4。
它能做的事包括:自动删除停顿词(嗯、啊、false starts)、自动字幕(2 词大写块,风格可定制)、自动调色(暖色电影感或中性对比)、每个剪辑点还有 30ms 淡入淡出防止爆音。
核心逻辑值得学习:它先分析语音转录稿,找出静音间隔和发言边界来决定剪切点——transcript 是表面,音频是主导,画面跟着走。
③ Remotion Skills:用 React 批量制作模板视频
GitHub:remotion-dev/remotion
Remotion 是用 React 写视频的框架,已有 39K+ GitHub Stars,每月 90 万次安装。它的核心优势是把视频生产接入软件工程工作流:代码即视频,版本可控,可测试,可批量渲染。
它专门出了 29 个 Agent Skills 规则文件,覆盖 3D 动画、音频处理、字幕、图表、过渡效果等细分场景,每周被 Codex、Claude Code、Cursor 调用超过 15.5 万次。
适合场景:数据视频(把 CSV/JSON 数据渲染成动态图表视频)、固定栏目(周报、产品更新的模板化视频)、批量个性化内容。
④ Generative Media Skills:调用 AI 模型生成素材
如果前三个 Skills 处理的是"怎么把素材变成视频",Generative Media Skills 解决的是"怎么生成素材"。它封装了调用主流 AI 生成模型的操作规范——文生图、文生视频、文生音频——以及如何把生成结果无缝接入视频渲染流水线。
对于 UGC 内容创作者、AI 短片导演来说,这个 Skill 的价值在于:把"生成 → 筛选 → 剪辑 → 合成"这条链路,变成 Codex 的一次对话。
⑤ videocut-skills:适合中文创作者的剪辑 Agent
专门为中文内容生态设计的视频剪辑 Skill。覆盖三个场景:中文字幕处理(适配普通话、粤语等多种发音风格)、竖屏短视频(适配抖音、视频号比例和节奏)、以及口播内容的精剪逻辑。
如果你主要是做视频号或者抖音内容,英文 Skill 对中文语境的处理往往不够准确——停顿识别误判、字幕断句不符合中文阅读习惯。videocut-skills 在这些点上做了针对性优化。
⑥ seedance2-skill:为即梦 Seedance 写专业视频提示词
GitHub:dexhunter/seedance2-skill
即梦的 Seedance 2.0 是字节跳动的多模态 AI 视频生成模型,支持文字、图片、视频、音频多种输入。但大多数人不知道怎么写出高质量的生成 Prompt。
seedance2-skill 就是把 Seedance 的镜头语言、运镜规范、参考素材引用方式、逐秒分镜格式——全部写进 SKILL.md 里。你只需要告诉 Codex 你想拍什么场景,Skill 让 Codex 自动输出符合 Seedance 要求的专业 Prompt。
三种典型工作流,直接抄作业
| 场景 | 工具组合 | 说明 |
|---|---|---|
| 推文转视频 | HyperFrames | 把文章或产品介绍文字发给 Codex,说明风格,Codex 生成 HTML 场景文件,HyperFrames 渲染成动效 MP4 |
| 真人口播精剪 | video-use + HyperFrames | video-use 负责粗剪(删停顿、加字幕、调色),HyperFrames 负责生成片头、转场动画、结尾 CTA 屏 |
| AI 短剧与广告 | seedance2-skill + 即梦 + video-use | 先用 seedance2-skill 写分镜 Prompt,即梦生成 AI 视频素材,video-use 把素材剪辑合成 |
上手之前,这几个坑要先知道
- Node.js 版本必须是 22+:很多人第一步就卡在这里,装了 Codex 却运行不了
- HyperFrames 需要本地安装 FFmpeg:渲染视频依赖 FFmpeg 做最终合成,没装会卡在最后一步。macOS 用
brew install ffmpeg,Linux 用apt安装 - 先在 Git 分支上跑 Codex:把 Codex 的工作放在专门的 feature branch,不要直接在 main 分支上操作
- AGENTS.md 越具体越好:很多人发现 Codex 生成质量不稳定,根源是没有写 AGENTS.md
- 不要只让 Codex 做修改,让它同时跑验证:每次任务结束,提示它运行相关的检查命令(ffprobe 验证、字幕对齐检查)
总结
这套工具的出现,改变的不只是视频剪辑的效率,而是视频生产的权力结构。过去,一个能交付完整视频的团队,需要编导、剪辑、调色、字幕、动效五个角色。现在,一个懂得配置 Codex Skills 的人,可以撑起全流程。
苏米观察:你不需要成为全栈工程师,你只需要学会一件事:用语言描述你想要的结果,然后让工具帮你翻译成执行。Codex + Skills 的组合,正在把视频生产从"专业技能"变成"自然语言指令"。对于内容创作者来说,这是降低门槛的最好时机。