当前位置：首页 » AI开源项目

OmniVoice Studio：免费开源AI语音生成工具，3秒克隆音色+视频自动配音

1月前 AI开源项目 489 0

OmniVoice Studio 是一款完全开源、完全本地运行的 AI 语音工具，支持 646 种语言，4GB 内存即可运行，自带视频自动配音和 MCP 协议支持。

简单讲，它是一个本地语音工作站，集语音克隆、声音设计、视频翻配、实时听写于一身，全部跑在你自己的电脑上，不需要联网，不需要订阅。

声音克隆：3 秒复刻任意音色

丢一段 3 秒的音频进去，输入文字，它就能用那个音色说话。不需要微调，不需要训练，3 秒就够。

作为对比，ElevenLabs 最快也要 30 秒参考音频。3 秒 vs 30 秒，差距明显。

它支持 646 种语言，中文 WER 做到了 0.84%，比 ElevenLabs 的官方数据（约 2%）还低。

声音设计：自由调节声音参数

可以调节性别、年龄、口音、音高、速度、情感、方言等参数，生成的声音可以存到本地声音画廊，下次直接调用。对于做有声内容的人来说很实用——不需要每次都去调参数，存好模板直接用。

视频自动配音：完整的多模态管线

扔一个视频链接或者本地 MP4，它会自动：

分离人声和背景音
识别说话人
切片翻译
用克隆的音色重新合成

完整的多模态配音管线，开箱即用。以前想做这个，要么用云端 API 付费，要么自己搭一整套流程，光部署环境就能折腾半天。现在装好软件，拖进去，等着就行。

全局悬浮听写

按一个全局快捷键，屏幕上弹出一个悬浮窗，你说话，它实时转成文字，然后自动粘贴到当前光标位置。任何 App、任何输入框都能用。完全离线运行，不存在隐私泄露的问题。

MCP 原生支持

内置 MCP 服务端，在 Claude Desktop 或者 Cursor 里配置一下，就能通过 AI 指令调用本地语音能力。比如你跟 Claude 说"帮我用这个音色读一下这段文字"，它就会调用 OmniVoice Studio 来生成。

苏米注：MCP 支持是面向 AI 时代的杀手锏——真正把 AI 和语音能力打通了。这意味着你可以在任何支持 MCP 的 AI 工具中直接使用本地语音能力，无需额外配置。

技术细节

显存 ≤ 8GB 时自动切 CPU，≥ 8GB 才上 GPU，没有独显也能跑
CPU 模式下 TTS 速度约为 GPU 模式的 1/3
4GB 内存最低门槛，大多数老电脑都能跑
纯本地 WebSocket 流式识别，听写延迟很低

对比分析

这个工具最打动人的地方，是它真正解决了两个痛点——成本和门槛。

特性	OmniVoice Studio	ElevenLabs	CosyVoice 3
价格	免费	按量付费	免费
部署	本地	云端	需 GPU
语言	646 种	32+ 种	有限
视频配音	内置	无	需自建
隐私	完全本地	数据上云	本地

优势：646 种语言覆盖 + 视频自动配音 + 完全免费 + 完全本地，这个能力组合在免费工具中几乎是独一份。

不足：纯 CPU 模式下速度是 GPU 的 1/3，实时性要求高的场景有点勉强。另外毕竟是新项目，社区还在成长，长期维护情况需要观察。

适合谁？

✅ 适合：

做内容本地化的团队
独立开发者
游戏/动画配音工作室
对隐私有强需求的企业用户
有出海需求的内容团队

❌ 不适合：

对实时性要求极高的直播场景
完全不想折腾技术的小白用户

怎么用？

项目地址：palash.dev/omnivoice

下载对应系统的安装包，一键安装：

声音克隆：打开 Voice Clone 面板拖入音频
视频配音：进 Dubbing 面板拖入视频
全局听写：设好快捷键就能用
接入 AI 工具：在 Claude Desktop 或 Cursor 的 MCP 设置里填入服务端地址

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：OmniVoice Studio：免费开源AI语音生成工具，3秒克隆音色+视频自动配音

请登录后发表评论