当前位置：首页 » AI开源项目

FireRedTTS-2：开源多语言多人对话 TTS，支持零样本语音克隆

2小时前 AI开源项目 22 0

我一直在关注TTS（Text-to-Speech）的发展，像之前分享的index-TTS2，已经是非常大的突破了。

但随着播客、虚拟角色、智能客服和多模态聊天机器人的普及，对话式语音生成的需求越来越强烈。

但市面上不少方案依然存在两个痛点：要先准备完整的对话文本才能生成音频，以及难以在多角色之间平滑切换。

今天要分享的 FireRedTTS-2，正好在这两个问题上做出了突破。

它不仅是一个开源项目，还能做到多人长对话流式语音生成，支持零样本语音克隆，效果非常接近真实播客对话。

项目简介

FireRedTTS-2 是小红书开源的长对话 TTS 系统，主打 稳定、自然的多说话人对话生成。它基于流式架构，可以边生成边播放，而不是一次性合成整段语音。

官方给出的 demo 页面（点这里体验）展示了一段双人对话，整体流畅度、角色切换和情感表现都非常自然，几乎可以直接应用到播客和聊天机器人里。

我把视频下载下来了，太大了，所以转换音频分享吧，如果有兴趣的还是可以去官方看demo，那种真实的播客感觉非常强烈~

核心功能亮点

长对话语音生成

支持 4 位说话者的 3 分钟对话，扩展训练语料后可以生成更长时长和更多角色的对话。

多语言 & 零样本语音克隆

支持中、英、日、韩、法、德、俄等多语言场景。零样本语音克隆让它能够跨语言对话，甚至支持中途切换语言（code-switching）。

超低延迟

基于新设计的 12.5Hz 流式语音 tokenizer 和双 Transformer 架构，首包延迟可低至 140ms（在 L20 GPU 上测试），适合实时交互场景。

稳定性强

在多说话人测试中，模型能保持低 WER/CER，避免了常见的说话人混乱或情感断层问题。

随机音色生成

可用于生成多样化的合成语音数据，适合 ASR 训练或交互式应用。

对比来看，它在播客生成场景里已经超过了现有方案（如 MoonCast、Zipvoice-Dialogue、MOSS-TTSD），在语音自然度和对话上下文的一致性上都有优势。

应用场景

播客自动生成：批量合成双人或多人访谈节目，降低制作成本。
聊天机器人 & 虚拟角色：与对话系统无缝集成，支持多语言、多角色实时对话。
游戏与虚拟世界：快速生成 NPC 对话语音，提供更沉浸的体验。
跨语言教学与配音：零样本语音克隆适合教学、语音翻译、跨语种配音。

安装与部署

如果你有 GPU 环境，可以直接在本地跑起来。

1. 克隆项目

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

2. 创建 Conda 环境

conda create --name fireredtts2 python==3.11
conda activate fireredtts2

3. 安装 PyTorch

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

4. 安装依赖

pip install -e .
pip install -r requirements.txt

5. 下载预训练模型

git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

6. 启动 Web 界面生成对话

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

出现如下日志，则表示启动成功。

* Running on local URL:  http://0.0.0.0:7860

浏览器输入 http://127.0.0.1:7860 进行使用。

这样就能通过简单的 Web UI 界面输入对话，快速生成音频。

使用的时候需要注意，有两种模式：

音色克隆： 上传两段语音+分别的语音文本用于音色和音调，输入待对话的文本，点击运行即可。

随机音色： 直接输入待对话的文本，点击运行即可。

两个人的代号分别为：S1 和 S2。

如果觉得自己部署太麻烦了那有更简单的方案，就是用现成的包，苏米已经准备好了！

关注「苏米客」公众号，回复「TTS」获取一键包~

在 FireRedTTS2.7z.001 上右击，务必使用 7z 解压，解压后，点击“启动.bat”即可

相似项目推荐

如果你对多说话人 TTS 感兴趣，可以对比一下：

CosyVoice（阿里）：主打零样本语音合成和跨语言语音克隆。
MMS-TTS（Meta）：覆盖 1,000+ 种语言的多语言语音合成项目。
Parler-TTS（HuggingFace 社区）：轻量化的对话式 TTS 开源实现。

FireRedTTS-2 在流式生成和多人对话方面表现更突出，更适合实时互动类场景。

总结

作为一名经常体验 AI 产品的产品经理，我认为 FireRedTTS-2 的意义不止于 TTS 本身，而在于它让多角色实时语音对话变得可行。

未来无论是虚拟人、AI 播客，还是沉浸式游戏体验，这类技术都可能成为基础设施。对开发者来说，它的开源特性和完整部署文档，也降低了上手成本。

如果你对语音合成应用感兴趣，FireRedTTS-2 值得动手试一试。

项目地址：https://github.com/FireRedTeam/FireRedTTS2

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：FireRedTTS-2：开源多语言多人对话 TTS，支持零样本语音克隆

请登录后发表评论