10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆

1小时前 AI开源项目 17 0

最近我刷开源项目时,看到面壁团队(OpenBMB)放出了一个非常炸裂的开源工具 VoxCPM:一款 无需分词器的端到端语音生成(Tokenizer-Free TTS)模型,主打两个能力:

上下文感知的自然语音生成和逼真的零样本声音克隆

VoxCPM 不仅拥有高质量和丰富表现力的声线,而且只需上传几秒的参考声音,就能实现克隆。

VoxCPM 模型参数尺寸仅有 0.5 B,非常轻量,但语音合成的效果一点儿不逊。

在自然度、音色复刻程度、韵律等方面都达到了最优的水平,极其高效、实用。

项目简介

清华大学联合面壁智能推出了一款新的语音生成模型:VoxCPM,目前已经在 GitHub 和 Hugging Face 上开源了。

VoxCPM 基于 MiniCPM-4 语言模型骨干,采用 扩散-自回归架构(Diffusion Autoregressive),直接从文字生成连续语音表示,避免了主流TTS常见的“离散分词器限制”。

性能表现

下面这个表梳理了目前主流的语音合成模型的表现,开源的和不开源的都列进去了。

基于 Seed-TTS-EVAL 权威评测榜单,可以看到 VoxCPM 在 WER% (词错误率) 、 CER% (字错误率)、SIM% (相似度) 等维度上,不管是英文还是中文都达到了最优。

也就是说这个 0.5B 的小家伙,合成语音的准确性、克隆音色的相似程度、效率三个方面取得了惊人平衡的模型。

这让它在表达力、自然度和稳定性上有了明显优势。

它的训练数据规模也很惊人:180万小时的双语语音语料。

这意味着无论是中文还是英文,都能生成自然、流畅、带有情感的语音。

核心功能

上下文感知的语音生成

VoxCPM 会根据文本内容自动调整语调、停顿和情绪。例如读新闻时是平稳的,读诗歌时带有抑扬顿挫。

零样本声音克隆

只需一小段参考音频,就能克隆出高度逼真的声音,连口音、语速和情绪细节都能复刻。

高效推理

在消费级显卡(RTX 4090)上,实时因子(RTF)能低到 0.17,支持实时合成,适合对接应用场景。

模型原理

下面是 VoxCPM 模型的架构图。

它利用一个 MiniCPM-4 作为大脑来理解文本上下文,摒弃传统的语音离散化步骤,直接在连续空间中,采用扩散自回归的生成方式。

并辅以 FSQ 等约束来实现特征解耦,从而同时实现高度表现力的语音合成和极其逼真的零样本语音克隆。

应用场景

内容创作:播客、短视频配音、自媒体解说

教育领域:个性化教学助手、语言学习语音反馈

虚拟人/游戏:角色语音生成、剧情对话动态演绎

辅助功能:帮助语言障碍者发声,提升可及性

安装与使用

VoxCPM 已经发布到 PyPI,一行命令即可安装:

pip install voxcpm

首次运行时会自动下载模型,也可以提前从 Hugging Face 拉取:

# 下载 VoxCPM-0.5B
from huggingface_hub import snapshot_download
snapshot_download("openbmb/VoxCPM-0.5B",local_files_only=local_files_only)
​
# 下载 ZipEnhancer 和 SenseVoice-Small。
from modelscope import snapshot_download
snapshot_download('iic/speech_zipenhancer_ans_multiloss_16k_base')
snapshot_download('iic/SenseVoiceSmall')

Python 调用示例

import soundfile as sf
from voxcpm import VoxCPM
​
model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")
​
wav = model.generate(
  text="VoxCPM is an innovative end-to-end TTS model from ModelBest, designed to generate highly expressive speech.",
  prompt_wav_path=None,     # optional: path to a prompt speech for voice cloning
  prompt_text=None,         # optional: reference text
  cfg_value=2.0,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
  inference_timesteps=10,   # LocDiT inference timesteps, higher for better result, lower for fast speed
  normalize=True,           # enable external TN tool
  denoise=True,             # enable external Denoise tool
  retry_badcase=True,       # enable retrying mode for some bad cases (unstoppable)
  retry_badcase_max_times=3, # maximum retrying times
  retry_badcase_ratio_threshold=6.0, # maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speech
)
​
sf.write("output.wav", wav, 16000)
print("saved: output.wav")

CLI 快速调用

# 直接生成语音
voxcpm --text "Hello world!" --output out.wav  
​
# 声音克隆
voxcpm --text "This is cloned voice." \
      --prompt-audio sample.wav \
      --prompt-text "reference transcript" \
      --output cloned.wav

在线体验

如果你不想本地折腾,可以直接在官方提供的 Demo 里试用:

Demo体验:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

Hugging Face: https://huggingface.co/openbmb/VoxCPM-0.5B

音频样例页面地址:https://openbmb.github.io/VoxCPM-demopage

上传一段语音或直接录音,使用 VoxCPM 参考合成一段新的音频

原声:

生成效果:

相似项目推荐

如果你对语音合成和声音克隆感兴趣,还可以关注:

  • VALL-E(微软):同样主打零样本语音克隆

  • StyleTTS 2:在表达力和音色控制方面更强

  • OpenVoice(MyShell):社区应用较广,适合快速尝试

相比之下,VoxCPM 的优势是开源、轻量、中文支持更好。

总结

作为一个经常体验AI工具的产品经理,我觉得 VoxCPM 给我的最大惊喜是 自然度和易用性。 过去很多TTS听起来“像机器人”,但 VoxCPM 的输出已经接近真人;再加上零样本声音克隆,它不仅能“说话”,还能“说出你自己的声音”。

如果你想探索 AI 语音生成在内容创作、教育、甚至虚拟人领域的可能性,VoxCPM 值得一试。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
#VoxCPM #语音生成模型 #TTS #语音克隆 
收藏 1
TEN Framework:几分钟就能搭建Voice Agent 的AI 语音框架,开源GitHub 热榜第一
Prompt 只是起点,AI 产品经理真正要会的是这三件事
推荐阅读
  • Super Agent Party:零门槛打造你的3D AI桌面伴侣
  • 两款超实用的Docker 端口可视化工具:快速定位端口占用问题
  • TEN Framework:几分钟就能搭建Voice Agent 的AI 语音框架,开源GitHub 热榜第一
  • Open Notebook:不想把研究资料交给 Google?试试这款 NotebookLM 的开源平替
  • Serena:让 Claude Code 拥有 IDE 级别的代码理解与编辑能力
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
1632 1周前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
1440 3周前
PandaWiki:手把手教你用这款开源神器,3分钟搭建你的专属AI知识库!
1415 1月前
京东JoyAgent悄悄开源,企业级AI Agent智能体门槛大大降低(附本地部署攻略)
1142 1月前
awesome-nano-banana:AI图像创作灵感库,Nano Banana提示词与生成案例合集
1068 2周前
FREE-CHATGPT-API:免费的直连CHATGPT API,又省下一笔
969 1月前
Parlant:为AI Agent 带来真正智能对话的开源框架
890 1周前
Kode:命令行里的多模型 AI 助手(使用体验与亮点解析)
864 3周前
IndexTTS2:全球首创!B站推出影视级TTS模型,支持零样本语音克隆、情绪双克隆与精准时长控制
801 2周前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
794 1周前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 VoxCPM:开源声音克隆TTS神器,0.5B 逼真的语音克隆
2 TEN Framework:几分钟就能搭建Voice Agent 的AI 语音框架,开源GitHub 热榜第一
3 CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
4 DocsGPT:给文档接入大模型秒变智能问答神器,让你告别翻文档的痛苦
5 Serena:让 Claude Code 拥有 IDE 级别的代码理解与编辑能力
6 SQLBot:不会写 SQL 也能轻松用AI问出来的开源神器
7 Happy-LLM:从零开始动手实现大语言模型的开源教程
8 n8n-workflows:2000+ 自动化工作流免费开源!这才是真正的效率宝库
9 两款超实用的Docker 端口可视化工具:快速定位端口占用问题
10 ENScan_GO:各大企业信息聚合搜索,支持命令行、MCP、API、导出
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联