10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

VoxCPM2:国产开源 2B 参数 TTS 模型,支持 30 种语言与语音克隆

1小时前 AI产品百科 15 0

VoxCPM2:国产开源 2B 参数 TTS 模型,支持 30 种语言与语音克隆

OpenBMB 团队发布了 VoxCPM2 文本转语音(TTS)模型。该模型拥有 2B 参数,支持语音克隆、语音设计和高质量语音合成,涵盖英文、中文、日语、韩语、德语、法语等 30 种主流语言,完全开源且允许商业使用。

对于需要语音合成能力的开发者来说,VoxCPM2 可以作为 ElevenLabs 等商业 TTS 服务的开源替代品,本地部署即可大幅降低语音合成成本。

核心特性

  • 30 种语言:无需语言标签,直接输入任意支持语言的文本即可合成
  • 语音设计(Voice Design):输入自然语言描述(如"年轻女性,温暖柔和的声音"),无需参考音频即可生成新语音
  • 语音克隆(Voice Cloning):提供参考音频即可克隆声音,支持风格引导控制情感、语速和表现力
  • 48kHz 高质量音频:输出录音室级别的高保真语音
  • 开源商用:完全开源,允许商业使用

模型架构

VoxCPM2 采用无分词器(tokenizer-free)的扩散自回归架构,在连续潜在空间中对语音进行建模,而非使用离散的语音单元。这种设计使得语音生成更加自然流畅。

架构核心流程:

  1. 文本编码:BPE 分词器将文本转换为离散令牌
  2. 语义建模:Text-Semantic Language Model 建立文本与语音语义的关联
  3. 量化处理:FSQ(有限标量量化)模块进行特征量化
  4. 声学细化:Residual Acoustic Language Model 细化声学特征
  5. 语音生成:LocDiT(局部扩散 Transformer)生成最终连续语音信号

macOS 本地部署指南

以下介绍在 macOS 下使用 mlx-audio 本地部署 VoxCPM2 的完整流程。

步骤 1:配置环境

uv venv .venv
source .venv/bin/activate
uv pip install "git+https://github.com/Blaizzy/mlx-audio" --prerelease=allow
uv pip install soundfile

步骤 2:下载模型

根据电脑配置选择量化版本:

# 4bit 量化(适合内存有限的设备)
hf download mlx-community/VoxCPM2-4bit --local-dir ./models/VoxCPM2-4bit

# 8bit 量化(推荐)
hf download mlx-community/VoxCPM2-8bit --local-dir ./models/VoxCPM2-8bit

# bf16 全精度(最高质量)
hf download mlx-community/VoxCPM2-bf16 --local-dir ./models/VoxCPM2-bf16

步骤 3:零样本语音生成(Zero-shot)

无需参考音频,直接合成:

import numpy as np
from mlx_audio.tts.utils import load
from mlx_audio.audio_io import write as audio_write

MODEL_DIR = "models/VoxCPM2-8bit"
OUTPUT_PATH = "zero_shot.wav"
model = load(MODEL_DIR)

result = next(model.generate("Hello, this is VoxCPM2 on Apple Silicon."))
audio_mx = result.audio

audio_write(
    str(OUTPUT_PATH),
    np.array(audio_mx),
    model.sample_rate,
    format="wav",
)

注意:如果待合成文本中包含括号,需要进行转义处理,否则无法正常合成语音。

步骤 4:语音设计(Voice Design)

通过自然语言描述生成特定风格的语音:

result = next(model.generate(
    text="Hello, welcome to VoxCPM2.",
    instruct="A young woman, warm and gentle voice",
))

步骤 5:语音克隆(Voice Cloning)

提供参考音频克隆声音:

result = next(model.generate(
    text="Hello, this is VoxCPM2 on Apple Silicon.",
    ref_audio="lisa.wav",
))

步骤 6:终极克隆(Ultimate Cloning)

针对有声读物等长篇内容,同时提供参考音频和对应转录文本,保证声音一致性:

result = next(model.generate(
    text="2B-parameter multilingual tokenizer-free TTS model...",
    prompt_text="VoxCPM2 is a tokenizer-free, diffusion autoregressive TTS model",
    prompt_audio="lisa.wav",
))

替代方案

如果 VoxCPM2 不满足需求,还可以考虑 Qwen3-TTS(通义千问团队出品):

  • 提供 0.6B 和 1.7B 两种尺寸
  • 支持 10 种主流语言
  • 同样支持语音合成、语音设计和语音克隆
  • 不同功能需切换不同模型

总结

VoxCPM2 是目前开源 TTS 领域功能最全面的模型之一。30 种语言支持、语音克隆、语音设计、48kHz 高保真输出,加上完全开源商用许可,使其成为 ElevenLabs 等商业服务的有力替代。

模型地址:HuggingFace - VoxCPM2-8bit

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:VoxCPM2:国产开源 2B 参数 TTS 模型,支持 30 种语言与语音克隆
#VoxCPM2 #TTS #语音合成 #开源模型 
收藏 1
AtomCode结合GitCode使用DeepSeek-V4-Flash模型教程
Anthropic 联合创始人 Chris Olah 在梵蒂冈 AI 通谕发布会上的发言要点
推荐阅读
  • photosonic:免费在线AI绘画工具,AI图像生成器DALL-E的AI模型
  • Taskade AI:基于AI的团队协作笔记思维导图文档工具,管理任务、写笔记、思维导图、视频聊天等
  • Inworld TTS:AI语音、多语言文本转语音工具,提供多种声音和情感选择
  • Google NotebookLM:AI笔记应用,可上传PDF、网页、视频等资料
  • SongGuru:AI生成原创音乐工具,在几秒钟内创作完整歌曲
评论 (0)
请登录后发表评论
分类精选
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
16951 1年前
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
16774 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
14808 1年前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
14088 1年前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
13962 9月前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
13555 6月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
13143 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
12712 1年前
抖音即创AI: 一站式智能AI创作管理平台
11342 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
11244 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 VoxCPM2:国产开源 2B 参数 TTS 模型,支持 30 种语言与语音克隆
2 ima知识库+WorkBuddy集成实战:需求文档自动归档与一键检索
3 DataBuddy:腾讯云大数据智能体工作台,对话即交付
4 MonkeyCode:国产 AI 云端 IDE,GPT-5.5 + 全流程研发
5 来福AI电台:免费零广告的个性化AI音频,腾讯入场前已抢跑一年
6 Tosea:面向科研的AI幻灯片生成器,一键从论文到高质量PPT
7 MiniMax Hub本地工作台:AI Agent与画布工作流的完美结合
8 腾讯 Marvis:操作系统级AI助手,6 个 Agent 协同 + 手机遥控电脑
9 Berrys:支持零提示生成与图像融合的专业级AI创作工具
10 腾讯设计Ardot:AI生成UI+MCP直连代码,对标Figma的国产设计工具来了
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联