10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

pyVideoTrans 开源视频翻译工具:语音识别+翻译+配音+声音克隆一站式解决方案

2小时前 AI开源项目 12 0

pyVideoTrans 是一款功能强大的开源视频翻译工具,由开发者 jianchang512 维护。

它在 GitHub 上已获得 17.6K Star,核心目标是将视频从一种语言无缝转换为包含另一种语言配音和字幕的视频,集成了语音识别、字幕翻译、AI 配音、音视频合成的完整自动化流水线。

图片 1

核心功能

全自动视频翻译流水线

pyVideoTrans 最吸引人的地方是它的全自动化流程。上传一个视频,它会依次完成四个阶段的处理:

  1. 语音识别(ASR):识别视频中的语音,生成带时间轴的字幕
  2. 字幕翻译:将源语言字幕翻译成目标语言
  3. 语音合成(TTS):根据翻译后的字幕生成配音
  4. 视频合成:将新的音频、字幕与原视频合并对齐

整个过程一键完成,不需要一步步手动操作。

声音克隆

pyVideoTrans 集成了 F5-TTS、CosyVoice、GPT-SoVITS 等声音克隆模型,支持零样本语音克隆。只需要提供一小段原说话人的声音,就能用相同的音色生成目标语言的配音,听起来就像原说话人自己在说另一种语言。这个功能对于处理访谈、讲座等视频特别有用。

多说话人识别

对于有多个人说话的视频,pyVideoTrans 支持说话人识别(Speaker Diarization),能够自动区分不同的说话人。可以给不同的说话人分配不同的 AI 配音角色,处理对话类视频时不会出现所有人都用同一种声音的尴尬情况。

每阶段手动校对

虽然是自动化流程,但在语音识别、字幕翻译、配音的每个阶段都可以暂停下来,手动校对和修改,确保最终效果符合要求。

丰富的模型和 API 支持

pyVideoTrans 支持市面上主流的各种模型和 API:

语音识别(ASR):

  • 本地模型:Faster-Whisper、Qwen-ASR
  • 在线 API:OpenAI Whisper、阿里 Qwen、字节跳动火山、Azure、Google 等

字幕翻译:

  • AI 翻译:DeepSeek、ChatGPT、Claude、Gemini、MiniMax、Ollama(本地)、阿里百炼等
  • 传统翻译:Google、Microsoft 等

语音合成(TTS):

  • 免费:Edge-TTS
  • 本地模型:F5-TTS、CosyVoice、GPT-SoVITS、ChatTTS 等
  • 在线 API:OpenAI、Azure、Minimaxi、302.AI 等

图片 2

其他实用功能

  • 音频转录/字幕生成:批量将音频或视频转换为 SRT 字幕文件,支持说话人识别
  • SRT 字幕翻译:批量翻译 SRT 字幕文件,保留原有时间码和格式
  • 文稿对齐与打轴:根据音视频及已有的文字稿,将文字稿转为时间轴精准的 SRT 字幕
  • 实时语音转文字:支持实时监听麦克风,并将说话声转为文字
  • 人声分离:可以分离视频中的人声和背景音乐
  • 命令行支持:提供 CLI 接口,支持无头运行,方便服务器部署或批量处理

快速上手

Windows 用户(推荐)

Windows 用户使用预打包版本最简单:

  1. 下载:访问 GitHub Releases 页面,下载最新的 win-pyvideotrans-v4.00 版本
  2. 解压:将压缩文件解压到一个路径,如 D:\pyVideoTrans(注意:路径不要包含中文、空格或特殊符号)
  3. 运行:双击文件夹内的 sp.exe 启动软件

首次启动可能需要几十秒甚至 2-3 分钟,请耐心等待。

源码部署(macOS / Linux / Windows 开发者)

1. 环境要求:

  • Python 3.10-3.12
  • FFmpeg

2. 安装 uv(推荐的包管理工具):

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

3. 克隆项目并安装依赖:

git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
uv sync

4. 启动软件:

# 启动 GUI 界面
uv run sp.py

# 或者使用 CLI
uv run cli.py --help

5. (可选)GPU 加速配置:

如果有 NVIDIA 显卡,可以安装 CUDA 版本的 PyTorch 加速处理:

uv remove torch torchaudio
uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128
uv add nvidia-cublas-cu12 nvidia-cudnn-cu12

命令行使用示例

# 视频翻译
uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en

# 音频转字幕
uv run cli.py --task stt --name "./audio.wav" --model_name large-v3

# 字幕翻译
uv run cli.py --task sts --name "./subtitle.srt" --target_language_code en

# 文字配音
uv run cli.py --task tts --name "./subtitle.srt" --voice_role "zh-CN-YunyangNeural" --target_language_code zh-cn

总结

pyVideoTrans 是一款功能全面、实用且开源的视频翻译工具,它把复杂的视频翻译流程简化成了一键操作,还支持声音克隆、多说话人识别等高级功能。对于经常需要处理外文视频的朋友来说,这个工具绝对值得一试。

项目的文档也非常完善,官方网站提供了详细的教程和 FAQ,还有在线问答社区。

开源地址

GitHub:jianchang512/pyvideotrans

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:pyVideoTrans 开源视频翻译工具:语音识别+翻译+配音+声音克隆一站式解决方案
#pyVideoTrans #视频翻译 #声音克隆 #AI配音 #开源工具 
收藏 1
Qwen3.6-35B-A3B-Uncensored:35B参数仅3B激活的完全解锁开源MoE模型
PilotDeck 开源 AI Agent 操作系统:一个人指挥一支智能体军队
推荐阅读
  • VidBee:一个基于 yt-dlp 引擎开源视频下载器!支持1000+网站下载音视频!
  • FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
  • AionUi:20多个AI命令行编程工具的统一图形界面,19.2K Star的开源替代方案
  • planning-with-files:超越对话限制,用一个插件(Skill)赋予Claude持久记忆的上下文工程方案
  • Agency-agents:82个agents组成的AI智能体天团 !2天斩获1万星
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9326 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8922 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7025 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6319 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6175 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6014 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5865 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5571 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5477 7月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
5431 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 One API 自建 AI 网关:15 分钟整合所有模型 Key,告别中转站跑路风险
2 PilotDeck 开源 AI Agent 操作系统:一个人指挥一支智能体军队
3 pyVideoTrans 开源视频翻译工具:语音识别+翻译+配音+声音克隆一站式解决方案
4 Qwen3.6-35B-A3B-Uncensored:35B参数仅3B激活的完全解锁开源MoE模型
5 开源纯真IP库在线查询系统:IP地理位置查询、本机IP查询、域名解析
6 Apex Dashboard:Obsidian 的一站式工作控制台插件
7 OpenHarness:港大开源轻量级 Agent 基础设施,兼容 15+ 大模型提供商
8 DeepSeek Reasonix:开源终端 AI 编程代理,前缀缓存让成本降低 70%
9 PinMe 2.0开源:一句话搞定前端、后端、数据库,AI全栈部署新工具
10 Cockpit Tools开源:AI IDE账号管理中控台,支持Codex多开与配额监控
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联