WorkBuddy 专家团是一个多 Agent 协作系统,模拟真实视频制作团队的工作流程。用户只需一句话指令,系统就能自动完成从内容采集、脚本策划到视频渲染的全流程。本文将详细拆解 WorkBuddy 专家团的工作机制,并提供一套可复用的 AI 视频制作 SOP。
WorkBuddy 专家团架构
WorkBuddy 的"一人公司专家团"由四个 Agent 角色组成,各司其职:
| 角色名称 | 职责 |
|---|---|
| 主理人 | 视频生成团队主理人,协调团队、传达指令、质量把控 |
| 信息采集员(灵阅) | 从全网采集 AI/科技热点内容 |
| 内容策划师(灵枢) | 筛选选题、写脚本、设计分镜 |
| 视频制作师(灵映) | 调用 HyperFrames 渲染 MP4(含配音+字幕) |
核心优势:每个 Agent 专注自己的领域,从采集到成片全自动,支持科技风视觉效果、动态粒子、专业配音。
实战案例:制作宣传视频
需求定义
以下是一个实际案例的参数设置:
- 视频主题:WorkBuddy 专家团
- 视频时长:120 秒(±10 秒)
- 配音音色:zh-CN-YunxiNeural(Azure TTS)
- 输出格式:带配音和字幕的 MP4 视频
- 视觉效果:科技风(深蓝渐变背景 + 粒子效果 + 网格动画)
步骤一:发起视频制作任务
用户只需一句话指令:
帮我做一期视频,主题是 WorkBuddy 专家团,时长 120 秒,带配音和字幕,配音音色用 zh-CN-YunxiNeural
系统响应:主理人接收任务,创建团队(ling-workbuddy-expert),启动标准工作流程:Phase 1 采集 → Phase 2 策划 → Phase 3 制作。
步骤二:Phase 1 — 内容采集(灵阅执行)
灵阅的任务是从全网采集与主题相关的高质量内容:
- 采集数量:5-10 条
- 时间范围:近 7 天
- 平台覆盖:微信公众号 + X/Twitter + YouTube + B 站 + GitHub
- 输出格式:Markdown 结构化报告
质检标准:报告包含至少 5 条内容,每条有评分和来源 URL,内容与主题相关。
步骤三:Phase 2 — 内容策划(灵枢执行)
灵枢接收灵阅的采集报告后,执行以下任务:
- 筛选高价值选题
- 编写视频脚本
- 设计分镜(4-6 个)
- 输出 JSON 制作包
JSON 制作包示例:
{
"title": "WorkBuddy专家团——一人公司的AI视频工厂",
"duration": 120,
"voice": "zh-CN-YunxiNeural",
"scenes": [
{"id": 1, "duration": 15, "narration": "你是否想过,一个人也能拥有完整的视频制作团队?", "visual": "科技风背景 + 标题动画"},
{"id": 2, "duration": 20, "narration": "WorkBuddy专家团,让AI为你工作。", "visual": "三Agent协作流程图"}
]
}
质检标准:JSON 格式完整,旁白总字数符合时长(120 秒 ≈ 280-320 字),分镜数量合理(4-6 个)。
步骤四:Phase 3 — 视频制作(灵映执行)
灵映接收 JSON 制作包后,执行视频渲染:
- 生成配音(Azure TTS)
- 生成字幕(SRT/ASS 格式)
- 渲染视频(HyperFrames + FFmpeg)
在实际执行中可能遇到以下技术问题:
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 字幕烧录失败 | libass 路径解析问题 | SRT → ASS 转换 |
| 视频缺少科技风特效 | HyperFrames 不支持复杂视觉效果 | 用 Python + FFmpeg 手动生成 |
| buddy-cloud.py 认证失败 | token 格式错误 | 改用本地 FFmpeg 方案 |
最终方案:用 Python PIL 生成科技风背景图,用 Python 生成粒子效果动画(150 个动态粒子),用 FFmpeg 合成:背景 + 粒子 + 配音 + 字幕。
成果展示
最终视频规格:
- 时长:117 秒(符合 ±10 秒要求)
- 大小:5.7MB
- 分辨率:1920×1080 (16:9)
- 视觉效果:WorkBuddy 界面背景 + 动态粒子效果
- 配音:zh-CN-YunxiNeural 音色
- 字幕:ASS 格式已烧录
技术深度解析
科技风背景生成(Python PIL)
使用 PIL 的 ImageDraw 模块绘制图形,渐变通过逐行绘制实现,半透明效果使用 RGBA 色彩模式。
关键技术点:
- 创建深蓝渐变背景(从 #0a1628 到 #000000)
- 添加网格线条(半透明青色,RGBA)
- 添加发光点(网格交点)
动态粒子效果生成(Python + FFmpeg)
粒子动画原理:
- 创建 150 个粒子对象
- 每个粒子有随机初始位置、速度、大小
- 每一帧更新粒子位置(向上飘动 + 左右摆动)
- 用 FFmpeg 将 300 帧(10 秒 × 30fps)编码为视频
视频合成(FFmpeg overlay 滤镜)
关键技术点:
-loop 1:背景图循环播放-stream_loop 11:粒子视频循环 12 次(10 秒 × 12 = 120 秒)colorkey滤镜:去除粒子视频的黑底(抠像)overlay滤镜:将粒子叠加到背景上
方案对比与选型建议
两种背景方案对比
| 方案 | 背景类型 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 方案 1 | 科技风深蓝渐变 | 视觉效果震撼、科技感强 | 与产品关联弱 | 品牌宣传、概念介绍 |
| 方案 2 | WorkBuddy 界面截图 | 真实感强、用户易理解 | 需要界面设计能力 | 产品演示、功能介绍 |
推荐策略:品牌宣传视频用方案 1(科技风),产品功能介绍用方案 2(界面截图)。
三种视频制作方案对比
| 方案 | 技术路线 | 优点 | 缺点 | 推荐指数 |
|---|---|---|---|---|
| 方案 A | Python + FFmpeg 本地生成 | 无需联网、可控性强 | 需要编程能力 | ⭐⭐⭐⭐⭐ |
| 方案 B | buddy-cloud.py 云端 API | 效果最专业、无需本地计算 | 需要认证、网络依赖 | ⭐⭐⭐⭐ |
| 方案 C | HyperFrames 自动渲染 | 最简单、一键生成 | 自定义能力弱 | ⭐⭐⭐ |
推荐策略:有编程能力用方案 A(完全可控),想最省事用方案 C(效果可能不满足),有云端 API 权限用方案 B(效果最好)。
常见问题与解决方案
问题 1:配音生成失败
问题描述:Azure TTS 返回 401 认证错误。
解决方案:
- 检查 AZURE_TTS_KEY 环境变量是否正确
- 检查 Azure 区域设置(如 eastus、southeastasia)
- 尝试使用免费 TTS 服务(如 edge-tts)
问题 2:字幕烧录失败
问题描述:FFmpeg 报错 Cannot find the ASS file。
解决方案:
- 确保 ASS 文件路径是绝对路径
- 确保 ASS 文件编码是 UTF-8(无 BOM)
- 尝试使用 subtitles 滤镜替代 ass 滤镜
问题 3:视频时长不准确
问题描述:生成的视频时长与预期不符。
解决方案:
- 检查配音文件时长(
ffprobe -show_entries format=duration) - 使用
-t参数限制输出时长 - 使用
-shortest参数以最短流为准
总结
- WorkBuddy 专家团是一个多 Agent 协作系统,能自动完成视频制作全流程
- 标准流程:Phase 1 采集 → Phase 2 策划 → Phase 3 制作
- 技术方案:Python 生成背景/粒子 + FFmpeg 合成视频 + Azure TTS 生成配音
- 关键技能:FFmpeg 滤镜(overlay、colorkey、ass)、Python PIL 绘图
核心观点:不会编程不要紧,会描述需求就够了。WorkBuddy 的专家团,就是让你的经验变成可复用的 AI 能力。