OmniVoice Studio 是一款完全开源、完全本地运行的 AI 语音工具,支持 646 种语言,4GB 内存即可运行,自带视频自动配音和 MCP 协议支持。
简单讲,它是一个本地语音工作站,集语音克隆、声音设计、视频翻配、实时听写于一身,全部跑在你自己的电脑上,不需要联网,不需要订阅。

声音克隆:3 秒复刻任意音色
丢一段 3 秒的音频进去,输入文字,它就能用那个音色说话。不需要微调,不需要训练,3 秒就够。
作为对比,ElevenLabs 最快也要 30 秒参考音频。3 秒 vs 30 秒,差距明显。

它支持 646 种语言,中文 WER 做到了 0.84%,比 ElevenLabs 的官方数据(约 2%)还低。

声音设计:自由调节声音参数
可以调节性别、年龄、口音、音高、速度、情感、方言等参数,生成的声音可以存到本地声音画廊,下次直接调用。对于做有声内容的人来说很实用——不需要每次都去调参数,存好模板直接用。

视频自动配音:完整的多模态管线
扔一个视频链接或者本地 MP4,它会自动:
- 分离人声和背景音
- 识别说话人
- 切片翻译
- 用克隆的音色重新合成
完整的多模态配音管线,开箱即用。以前想做这个,要么用云端 API 付费,要么自己搭一整套流程,光部署环境就能折腾半天。现在装好软件,拖进去,等着就行。

全局悬浮听写
按一个全局快捷键,屏幕上弹出一个悬浮窗,你说话,它实时转成文字,然后自动粘贴到当前光标位置。任何 App、任何输入框都能用。完全离线运行,不存在隐私泄露的问题。
MCP 原生支持
内置 MCP 服务端,在 Claude Desktop 或者 Cursor 里配置一下,就能通过 AI 指令调用本地语音能力。比如你跟 Claude 说"帮我用这个音色读一下这段文字",它就会调用 OmniVoice Studio 来生成。
苏米注:MCP 支持是面向 AI 时代的杀手锏——真正把 AI 和语音能力打通了。这意味着你可以在任何支持 MCP 的 AI 工具中直接使用本地语音能力,无需额外配置。
技术细节
- 显存 ≤ 8GB 时自动切 CPU,≥ 8GB 才上 GPU,没有独显也能跑
- CPU 模式下 TTS 速度约为 GPU 模式的 1/3
- 4GB 内存最低门槛,大多数老电脑都能跑
- 纯本地 WebSocket 流式识别,听写延迟很低

对比分析
这个工具最打动人的地方,是它真正解决了两个痛点——成本和门槛。
| 特性 | OmniVoice Studio | ElevenLabs | CosyVoice 3 |
|---|---|---|---|
| 价格 | 免费 | 按量付费 | 免费 |
| 部署 | 本地 | 云端 | 需 GPU |
| 语言 | 646 种 | 32+ 种 | 有限 |
| 视频配音 | 内置 | 无 | 需自建 |
| 隐私 | 完全本地 | 数据上云 | 本地 |

优势:646 种语言覆盖 + 视频自动配音 + 完全免费 + 完全本地,这个能力组合在免费工具中几乎是独一份。
不足:纯 CPU 模式下速度是 GPU 的 1/3,实时性要求高的场景有点勉强。另外毕竟是新项目,社区还在成长,长期维护情况需要观察。
适合谁?
✅ 适合:
- 做内容本地化的团队
- 独立开发者
- 游戏/动画配音工作室
- 对隐私有强需求的企业用户
- 有出海需求的内容团队
❌ 不适合:
- 对实时性要求极高的直播场景
- 完全不想折腾技术的小白用户
怎么用?
项目地址:palash.dev/omnivoice
下载对应系统的安装包,一键安装:
- 声音克隆:打开 Voice Clone 面板拖入音频
- 视频配音:进 Dubbing 面板拖入视频
- 全局听写:设好快捷键就能用
- 接入 AI 工具:在 Claude Desktop 或 Cursor 的 MCP 设置里填入服务端地址