把一篇公众号推文变成 1 分半的科普短视频,需要多久?
传统流程至少要一天:写分镜脚本、找素材、剪辑、加字幕、配旁白。
我用 Codex + HyperFrames 这套组合,半小时搞定——从文章到带字幕、特效、旁白的完整视频,全程只需要和 AI 对话。
不需要写任何脚本,不需要剪映等剪辑软件,也不需要编程基础。以下是完整实操记录。

什么是 Codex 和 HyperFrames?
Codex:AI 命令行助手
Codex 可以理解成装在你电脑里的 AI 同事。它能读文件、改代码、跑命令、写脚本——不是"请问有什么可以帮您"的客服 AI,而是真正能动手干活的那种。你用自然语言下指令,它负责执行。
比如你说"帮我把这篇推文整理成一个分镜表格",它就会乖乖整理出来。
HyperFrames:AI 友好的 HTML 视频渲染框架
HyperFrames 是 2026 年 4 月 HeyGen 开源的视频渲染框架,支持以插件形式安装在 Codex 中。它不用传统剪辑的拖拽操作,而是依靠 HTML、CSS 搭配动画语法编写代码,设计画面、动画节奏与图层效果,最终自动渲染生成完整视频。
核心能力:
- 制作短视频、动画片头、营销宣传片等内容
- 兼容各类 AI 模型自动产出创作代码,搭建自动化出片流程
- 省去手动剪辑的繁琐工序,高效批量生成视频素材
简单说,它就是你用嘴指挥的剪辑师 + 导演 + 编剧。
完整操作流程
步骤一:安装 HyperFrames 插件
- 打开 Codex,找到左侧插件菜单
- 搜索 HyperFrames
- 点击 + 安装插件

步骤二:输入指令,让 Codex 处理文章
这是最核心的步骤。我的原话是:
"能不能帮我把这篇公众号的内容做成一个短视频,风格我希望是科普动画风格,16:9,时长在 1 分半以内。整体节奏要符合短视频的叙事节奏,开头 10 秒要设立钩子。我建议你的工作顺序是:文章转视频脚本——资产图片生成(调 image-2)——生成视频。"

中间只需要提要求,Codex 给出结果。如果哪个地方不满意,直接反馈让它调整。比如我第一次觉得口播脚本有问题,就说:"口播脚本不对,你先输出口播脚本让我确认,而且我觉得字数不用太多,符合一分半并且能对应每个画面。"它立刻就会修改。
三个踩坑经验
1. 别指望一次就成功
第一次输出口播脚本时,可能会出现这些问题:
- 太长——恨不得把整篇文章念一遍
- 太短——就一句话
- 风格不对——你想科普,它给你写成产品软文
这都是正常的。关键是及时反馈、持续调教。比如我第一次让它出脚本,它写得太长,我直接指出问题,它改了;再看还差点意思,继续调。

2. 把调教过程攒成 Skill,下次直接用
这是最有价值的部分。你花了十几轮调出来的感觉,不要让它白白浪费——把它写成 Skill。

Skill 就像是你教 AI 的操作经验手册。下次再做同类视频,只需要调用这个 Skill,它就会自动按照你上次调教出来的风格、节奏、格式来工作。第一次可能用 2 小时调,第十次只需要 5 分钟出活。
3. 设置检查点,中途停下来确认
不要让 AI 一口气全做完——那样很容易返工。我的习惯是设置几个节点,让它在每个节点停一下等我确认:
- 节点 1:输出视频脚本框架 + 时长预估 → 确认结构 OK
- 节点 2:输出口播文案 → 确认内容、节奏、字数
- 节点 3:生成视频预览 → 确认视觉效果
每一个节点确认完,再让它继续往下走。这样做的好处是:小问题随时发现随时改,不至于最后全部推倒重来。
总结
AI 工具这几年进化很快,但很多工具的门槛还是卡在安装和配置上。无论是 Claude Code、Hermes 还是 OpenClaw,都有一定的学习成本。
Codex + HyperFrames 这套组合之所以值得分享,就是因为它把最难的两步(安装、剪辑)都做成了自然语言交互。通过 HTML 的纯代码方式渲染视频中的元素和动画,降低了视频创作的门槛。
苏米注:这套工作流的核心思路是"用对话代替操作"。AI 时代的内容创作正在从"人做工具的事"转向"人指挥工具做事",掌握这种思维方式比学会某个具体工具更重要。