10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆

1月前 AI开源项目 812 0

我一直在关注TTS(Text-to-Speech)的发展,像之前分享的index-TTS2,已经是非常大的突破了。

但随着播客、虚拟角色、智能客服和多模态聊天机器人的普及,对话式语音生成的需求越来越强烈。

但市面上不少方案依然存在两个痛点:要先准备完整的对话文本才能生成音频,以及难以在多角色之间平滑切换。

今天要分享的 FireRedTTS-2,正好在这两个问题上做出了突破。

它不仅是一个开源项目,还能做到多人长对话流式语音生成,支持零样本语音克隆,效果非常接近真实播客对话。

项目简介

FireRedTTS-2 是小红书开源的长对话 TTS 系统,主打 稳定、自然的多说话人对话生成。它基于流式架构,可以边生成边播放,而不是一次性合成整段语音。

官方给出的 demo 页面(点这里体验)展示了一段双人对话,整体流畅度、角色切换和情感表现都非常自然,几乎可以直接应用到播客和聊天机器人里。

我把视频下载下来了,太大了,所以转换音频分享吧,如果有兴趣的还是可以去官方看demo,那种真实的播客感觉非常强烈~

核心功能亮点

长对话语音生成

支持 4 位说话者的 3 分钟对话,扩展训练语料后可以生成更长时长和更多角色的对话。

多语言 & 零样本语音克隆

支持中、英、日、韩、法、德、俄等多语言场景。零样本语音克隆让它能够跨语言对话,甚至支持中途切换语言(code-switching)。

超低延迟

基于新设计的 12.5Hz 流式语音 tokenizer 和双 Transformer 架构,首包延迟可低至 140ms(在 L20 GPU 上测试),适合实时交互场景。

稳定性强

在多说话人测试中,模型能保持低 WER/CER,避免了常见的说话人混乱或情感断层问题。

随机音色生成

可用于生成多样化的合成语音数据,适合 ASR 训练或交互式应用。

对比来看,它在播客生成场景里已经超过了现有方案(如 MoonCast、Zipvoice-Dialogue、MOSS-TTSD),在语音自然度和对话上下文的一致性上都有优势。

应用场景

  • 播客自动生成:批量合成双人或多人访谈节目,降低制作成本。

  • 聊天机器人 & 虚拟角色:与对话系统无缝集成,支持多语言、多角色实时对话。

  • 游戏与虚拟世界:快速生成 NPC 对话语音,提供更沉浸的体验。

  • 跨语言教学与配音:零样本语音克隆适合教学、语音翻译、跨语种配音。

安装与部署

如果你有 GPU 环境,可以直接在本地跑起来。

1. 克隆项目

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

2. 创建 Conda 环境

conda create --name fireredtts2 python==3.11
conda activate fireredtts2

3. 安装 PyTorch

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

4. 安装依赖

pip install -e .
pip install -r requirements.txt

5. 下载预训练模型

git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

6. 启动 Web 界面生成对话

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

出现如下日志,则表示启动成功。

* Running on local URL:  http://0.0.0.0:7860

浏览器输入 http://127.0.0.1:7860 进行使用。

这样就能通过简单的 Web UI 界面输入对话,快速生成音频。

使用的时候需要注意,有两种模式:

音色克隆: 上传两段语音+分别的语音文本用于音色和音调,输入待对话的文本,点击运行即可。

随机音色: 直接输入待对话的文本,点击运行即可。

两个人的代号分别为:S1 和 S2。

如果觉得自己部署太麻烦了那有更简单的方案,就是用现成的包,苏米已经准备好了!

关注「苏米客」公众号,回复「TTS」获取一键包~

在 FireRedTTS2.7z.001 上右击,务必使用 7z 解压,解压后,点击“启动.bat”即可

相似项目推荐

如果你对多说话人 TTS 感兴趣,可以对比一下:

  • CosyVoice(阿里):主打零样本语音合成和跨语言语音克隆。

  • MMS-TTS(Meta):覆盖 1,000+ 种语言的多语言语音合成项目。

  • Parler-TTS(HuggingFace 社区):轻量化的对话式 TTS 开源实现。

FireRedTTS-2 在流式生成和多人对话方面表现更突出,更适合实时互动类场景。

总结

作为一名经常体验 AI 产品的产品经理,我认为 FireRedTTS-2 的意义不止于 TTS 本身,而在于它让多角色实时语音对话变得可行。

未来无论是虚拟人、AI 播客,还是沉浸式游戏体验,这类技术都可能成为基础设施。对开发者来说,它的开源特性和完整部署文档,也降低了上手成本。

如果你对语音合成应用感兴趣,FireRedTTS-2 值得动手试一试。

项目地址:https://github.com/FireRedTeam/FireRedTTS2

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆
#FireRedTTS #TTS #多角色实时语音对话 
收藏 1
FluentRead:开源浏览器翻译插件,轻松实现沉浸式阅读体验
手把手教你零代码打造微信文章助手插件,轻松搞定微信文章导出Markdown和图片下载
推荐阅读
  • FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆
  • FREE-CHATGPT-API:免费的直连CHATGPT API,又省下一笔
  • Social-Analyzer:用AI和多层检测技术追踪1000+社交平台上的身份足迹
  • 从 Fish-Speech 到 OpenAudio:开源 TTS 正在进入情感表达时代
  • CloudBase AI CLI:又一款命令行开发工具来了,这次有点不一样(附安装教程)
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
4693 3周前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
4037 3周前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
3288 2月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
2825 3周前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
2708 3周前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
2669 2月前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
2622 3周前
FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
1986 1月前
Bytebot:开源AI桌面代理(Desktop Agent),给AI配一台自己的电脑
1968 1月前
NeuTTS Air:首个可离线运行的"拟人语音克隆”TTS模型
1943 1月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Generative Models:从本地部署到模型训练,Stable Diffusion 官方的完整开源方案
2 CordysCRM:开源AI驱动的企业级CRM系统,Salesforce的可控替代方案
3 Puter:开源个人云操作系统,打造隐私优先的文件与应用管理平台
4 Twake Drive:用 Node.js 自建私人网盘,10分钟完成部署
5 Dyad:本地优先的全栈应用生成器,无需云端的 AI Builder 替代方案
6 毕昇BISHENG:Dify限制太多?试试这款开源可商用的LLM开发平台
7 AI Engineering Hub:免费教你从0到AI工程师,93个生产级项目的系统学习路径
8 SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
9 Image2Prompt:一键将图片转换为 AI 绘画提示词的浏览器插件,完全开源免费使用
10 LazyCraft:本地化Agent平台的企业级选择,内置模型微调与细粒度权限控制
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联