10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

Voicebox:开源声音克隆工具,本地运行不耗Token,支持多国语言

52分钟前 AI产品百科 0 0

制作视频时,很多人希望语音能更有特色——无论是音色还是语气。市面上很多工具要么声音固定,要么需要充值才能使用声音克隆功能。

今天介绍的 Voicebox 是一款开源免费的声音克隆工具,所有数据和模型都运行在本地,普通电脑也能用,不消耗 Token,不限次数。

Voicebox 界面

什么是 Voicebox?

Voicebox 是一款以本地化为核心的 AI 语音工作室。你可以使用它从短短几秒钟的语音中克隆声音,生成语音,支持中文、英语、日语、阿拉伯语等多国语言。

核心功能

  • 声音克隆:从参考音频中克隆声音,生成自然语音
  • 语音特效:为生成的语音增加混响、延迟、合唱等特效
  • 语音转文本:将语音转换为对应文本(基于 Whisper)
  • RESTful API:每个操作都有对应的 API 接口
  • MCP 集成:可通过 MCP 协议与 Claude Code、OpenClaw 等 Agent 结合
  • 多平台部署:支持 Windows、Linux、macOS、Docker

Voicebox 功能

支持的 TTS 开源模型

Voicebox 支持 7 种开源文本转语音大模型:

模型 特点 适用场景
Qwen TTS 支持 1.7B/0.6B 两种规格,中文处理效果佳 多语言克隆,中文优先
Qwen CustomVoice 9 种预设音色,无需参考音频也能生成 快速生成,中文支持
LuxTTS 轻量级,1GB 显存即可运行,CPU 友好 英文语音生成
Chatterbox TTS 支持 23 种语言,语言覆盖最广 多语言需求
TADA HumeAI 语音模型,长文本处理效果最佳 长文本转语音
Kokoro 90+ 预设音色,仅 84MB,适合 CPU 推理 轻量快速生成
Whisper OpenAI 开源模型,支持 base/small/large 版本 语音转文本

支持的模型

安装与使用

安装

访问官网 https://voicebox.sh/,下载对应系统的安装包,双击安装即可。

下载安装

下载模型

安装完成后,在左侧菜单「模型」中选择需要的模型下载。模型从 HuggingFace 获取,体积较大,需耐心等待。

模型下载

克隆声音

  1. 创建声音,准备参考音频(建议单个 30 秒样本效果最佳)
  2. 填写必要信息,添加声音样本时需写出声音的文本内容

创建声音

生成语音

复制文本,添加到 Voicebox 输入框中,选择语言和模型即可生成。以 Qwen-TTS 0.6B 为例,约 10 秒即可生成。

生成语音

语音克隆效果在音色、语调、语速等方面表现都不错。

与 Agent 结合使用

Voicebox 与 Agent 结合有很多实用场景:

  • 视频配音/播客内容:用 OpenClaw 生成内容,Voicebox 生成语音
  • Agent 语音对话:本地部署 Voicebox,让 OpenClaw 调用接口把文本转成语音

Voicebox 提供全面的 HTTP API,可以部署为服务端供 Agent 使用。

API 接口

API 文档

除了 RESTful 接口,Voicebox 还支持 MCP 协议,Claude Code 直接一句命令即可使用本地 Voicebox。

MCP 集成

总结

Voicebox 是一款以本地为核心的语音转化工具:

  • 不消耗 Token:模型运行在本地,可以无限使用
  • 隐私性好:数据内容在本地,不外发
  • 模型丰富:支持 7 种开源 TTS 模型
  • Agent 友好:提供 RESTful API 和 MCP 接口

如果你需要做视频配音、播客内容,或者想让 Agent 具备语音能力,Voicebox 值得试试。

官网: https://voicebox.sh/

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Voicebox:开源声音克隆工具,本地运行不耗Token,支持多国语言
#Voicebox #声音克隆 #TTS #开源 #AI语音 
收藏 1
Vibe Trading:用自然语言做量化交易,AI 驱动的多代理金融工作台
PraisonAI:5行代码部署24小时AI智能体团队,7300+ Star
推荐阅读
  • Katalog:AI语音阅读应用,将保存的文章转化为语音随时随地听取阅读
  • Audimee:AI声音转换和合成工具,轻松转换、训练人声,创作免版税翻唱作品
  • Grammarly:一款AI驱动的英语语法纠正和校对工具,英语语法和拼写检查工具
  • Gempix2:免费AI图像生成器,基于 Nano Banana 2 模型快速图像生成
  • 通义星尘: 阿里云出品基于通义大模型的AI聊天机器人产品
评论 (0)
请登录后发表评论
分类精选
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
16597 1年前
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
16584 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
14641 1年前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
13350 5月前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
13168 8月前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
13047 1年前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
12968 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
12555 1年前
抖音即创AI: 一站式智能AI创作管理平台
11162 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
11044 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Voicebox:开源声音克隆工具,本地运行不耗Token,支持多国语言
2 CodexPet.xyz:Codex 桌面宠物乐园,1500+ 宠物一键安装
3 WorkBuddy vs IMA Copilot:腾讯两条 Agent 路线深度对比
4 Buzzy:视频版 Photoshop,指哪改哪的 AI 视频编辑工具
5 B 站 Updream:AI 视频创作助手,文生视频一站式搞定
6 腾讯 Ardot:AI 原生的 UI/UX 设计工具内测体验
7 FonetikAI:AI英语口语教练,提供实时纠音与个性化练习,帮助学习者建立口语自信
8 从知识库工具到专属Agent:腾讯ima Copilot实测与记忆机制解析
9 大模型应用全景图:Prompt Engineering、Context Engineering与Harness Engineering
10 Codex宠物功能上线:让 Agent 的工作状态变得可见可感知
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联