FlyCut Caption,它把这条链路整合得非常顺滑,尤其是字幕生成和智能裁剪这块,体验感很好。今天就来和大家分享一下。
项目简介
FlyCut Caption 是一款基于 AI 的视频字幕编辑工具,特点是本地运行、智能识别和可视化编辑。
它以 OpenAI 的 Whisper 模型为核心,支持多语言语音转文字,结合本地浏览器运行的 AI 处理能力,用户无需依赖外部 API 就能快速生成、编辑和导出字幕,同时还能直接对视频进行裁剪和烧录字幕。
简而言之:上传视频 → 自动生成字幕 → 编辑调整 → 导出视频/字幕,一站式搞定。
功能特色
核心功能
-
智能语音识别:基于 Whisper,高精度识别多语言语音。
-
可视化字幕编辑:直观的片段选择、批量删除与恢复,支持撤销/重做。
-
实时视频预览:同步字幕和视频,支持区间播放和快捷键控制。
-
字幕样式定制:可调整字体、颜色、位置、背景,所见即所得。
-
多格式导出:字幕支持 SRT、JSON,视频支持裁剪并嵌入字幕。
-
国际化支持:自带中英语言包,可扩展自定义语言。
技术特色
-
现代化前端:React 19 + TypeScript + Vite + Tailwind CSS。
-
本地 AI 推理:基于 Hugging Face Transformers.js,在浏览器端完成语音识别。
-
Web Workers 并行处理:ASR 在后台运行,不阻塞主界面。
-
响应式 UI:桌面和移动端体验一致。
-
模块化架构:方便二次开发与扩展。
使用场景
-
视频博主:快速生成多语言字幕,直接导出成带字幕的视频。
-
在线教育:录屏课程自动生成字幕,提升学习体验。
-
企业宣传:宣传片快速裁剪与加字幕,节省后期成本。
-
开源开发者:可以作为字幕处理组件集成到更大的应用中。
安装与部署
环境要求
-
Node.js 18+
-
推荐使用 pnpm
安装步骤
git clone https://github.com/x007xyz/flycut-caption.git
cd flycut-caption
pnpm install
pnpm dev
浏览器访问 http://localhost:5173
即可。
生产环境构建:
pnpm build
pnpm preview
使用流程
上传视频/音频
-
支持 MP4, WebM, AVI, MOV 等视频格式;MP3, WAV, OGG 等音频格式。
-
拖拽或点击上传,文件大小上限默认 500MB。

生成字幕
-
选择语言(自动检测或手动指定)。
-
Whisper 在后台进行识别并生成带时间戳的字幕。

编辑字幕
-
批量删除、恢复、全选操作。
-
点击字幕片段可跳转对应时间点。
-
支持撤销与重做操作。

视频预览
-
可跳过被删除的片段直接预览最终效果。
-
提供快捷键:播放/暂停(空格)、快进快退、音量调节、全屏等。

字幕样式调整
-
字体大小、粗细、颜色、位置、背景可自定义。
-
实时预览。
导出结果
-
字幕:SRT、JSON。
-
视频:保留未删除片段,可嵌入字幕,支持不同清晰度导出。
配置与扩展
项目支持高度可定制的 FlyCutCaptionProps 和 FlyCutCaptionConfig,例如:
-
语言与主题切换:支持浅色、深色、自动模式。
-
文件上传与导出开关:可按场景灵活配置。
-
进度回调:可监听字幕生成、视频导出等各个阶段。
这让它不仅是一个“工具”,也能成为开发者在其他应用中集成的字幕处理模块。
相似项目推荐
如果你对视频字幕编辑感兴趣,也可以看看:
-
VideoCaptioner:偏重于字幕生成和简单编辑,适合轻量需求。
-
OpenSubtitles Editor:开源的传统字幕文件编辑器,但缺少 AI 加持。
-
Whisper WebUI:基于 Whisper 的网页版前端,更专注于语音识别。
相比之下,FlyCut Caption 更强调“本地 AI + 一站式编辑导出”,体验完整度更高。
总结
作为一个经常需要处理视频和字幕的产品经理,我对 FlyCut Caption 的评价是:功能全、体验顺、扩展性强。
它解决了传统字幕工具“功能碎片化”的问题,把识别、编辑、预览、导出串成了一条流畅的工作流,而且还能完全在本地运行,避免了隐私与上传速度的困扰。
如果你也常常需要为视频加字幕、做裁剪,或者想找一个可以二次开发的开源项目,我非常推荐你尝试一下 FlyCut Caption。
项目地址:https://github.com/x007xyz/flycut-caption
在线体验: