当前位置：首页 » AI产品百科

Voicebox：开源声音克隆工具，本地运行不耗Token，支持多国语言

52分钟前 AI产品百科 0 0

制作视频时，很多人希望语音能更有特色——无论是音色还是语气。市面上很多工具要么声音固定，要么需要充值才能使用声音克隆功能。

今天介绍的 Voicebox 是一款开源免费的声音克隆工具，所有数据和模型都运行在本地，普通电脑也能用，不消耗 Token，不限次数。

什么是 Voicebox？

Voicebox 是一款以本地化为核心的 AI 语音工作室。你可以使用它从短短几秒钟的语音中克隆声音，生成语音，支持中文、英语、日语、阿拉伯语等多国语言。

Voicebox 支持 7 种开源文本转语音大模型：

模型	特点	适用场景
Qwen TTS	支持 1.7B/0.6B 两种规格，中文处理效果佳	多语言克隆，中文优先
Qwen CustomVoice	9 种预设音色，无需参考音频也能生成	快速生成，中文支持
LuxTTS	轻量级，1GB 显存即可运行，CPU 友好	英文语音生成
Chatterbox TTS	支持 23 种语言，语言覆盖最广	多语言需求
TADA	HumeAI 语音模型，长文本处理效果最佳	长文本转语音
Kokoro	90+ 预设音色，仅 84MB，适合 CPU 推理	轻量快速生成
Whisper	OpenAI 开源模型，支持 base/small/large 版本	语音转文本

访问官网 https://voicebox.sh/，下载对应系统的安装包，双击安装即可。

安装完成后，在左侧菜单「模型」中选择需要的模型下载。模型从 HuggingFace 获取，体积较大，需耐心等待。

复制文本，添加到 Voicebox 输入框中，选择语言和模型即可生成。以 Qwen-TTS 0.6B 为例，约 10 秒即可生成。

语音克隆效果在音色、语调、语速等方面表现都不错。

Voicebox 与 Agent 结合有很多实用场景：

Voicebox 提供全面的 HTTP API，可以部署为服务端供 Agent 使用。

除了 RESTful 接口，Voicebox 还支持 MCP 协议，Claude Code 直接一句命令即可使用本地 Voicebox。

Voicebox 是一款以本地为核心的语音转化工具：

如果你需要做视频配音、播客内容，或者想让 Agent 具备语音能力，Voicebox 值得试试。

官网： https://voicebox.sh/

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论