10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包

2小时前 AI开源项目 15 0

最近在体验新的AI语音生成工具时,发现了一个不错的tts方言包,支持多人对话的方言tts:SoulX-Podcast。

作为一名经常接触各类AI开源项目的产品经理,我注意到语音合成领域正在从单人独白向多人对话场景演进。

这个项目的特别之处在于,它不仅支持多轮、多说话人的对话生成,还能处理中文方言和语音克隆,填补了播客风格语音生成的一些空白。

今天就和大家分享一下我的体验与部署思路。

项目概述

SoulX-Podcast 是由 Soul-AILab 开发的一款专门为播客和对话类场景优化的文本转语音(TTS)模型。

与传统的单人叙述TTS不同,它在以下方面有明确的定位:

  • 应用场景定位:长篇内容、多轮对话、多说话人场景(如播客、有声书对白、剧本朗读等)
  • 语言覆盖:普通话、英语、以及四川话、河南话、粤语等多种中文方言
  • 技术特征:零样本语音克隆、副语言事件控制(笑声、叹息等)
  • 模型规模:基础版本为 1.7B 参数量,提供通用和方言两个版本

项目地址:https://github.com/Soul-AILab/SoulX-Podcast

modelscope:https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B/summary

核心功能分析

功能维度 具体表现 使用门槛
多人对话生成 支持多轮、多说话人的连续语音合成,对话流畅度优于单人TTS级联方案 需准备对话稿件和说话人音频样本
方言支持 内置四川话、河南话、粤语等方言模型,可直接调用 低——预置模型,无需额外训练
零样本语音克隆 上传参考音频即可克隆语音特征,跨方言兼容 中等——需要清晰的参考音频样本(5-10秒建议)
副语言控制 支持插入笑声、叹息等情感标记,增强对话自然度 低——通过文本标签标注

与同类工具的对比

在当前的开源TTS生态中,类似的方向还有:

  • Fish-Speech:侧重流畅度和自然度,但多人对话支持相对有限
  • GPT-SoVITS:个性化克隆能力强,但适配方言能力弱
  • Amphion:研究框架导向,功能完整但部署复杂度高

SoulX-Podcast 的差异化在于:将"对话场景"和"方言支持"作为一级功能,而非附加选项。这对播客创作者、有声书制作和剧本朗读等垂直场景更加友好。

 

部署与使用指南

1. 系统与环境要求

  • 显卡显存:建议 8GB 及以上(实测占用约 8GB)
  • Python 版本:3.11
  • PyTorch 版本:务必为 2.7.1(其他版本存在兼容性风险)
  • 操作系统:支持 Windows、Linux

2. Windows 部署流程

第一步:创建独立环境并安装 PyTorch GPU 版本

conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118

第二步:安装项目依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install triton  # 单独安装 triton 库

第三步:下载模型文件

pip install -U huggingface_hub

# 基础模型(通用版本)
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B

# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

3. 使用工作流

启动Web界面:运行项目启动脚本后,进入Web UI(通常为 http://localhost:7860)

一键包演示:

下载一键包,点击【01运行程序.bat】即可启动,页面如下:

准备输入内容

上传或使用预置参考音频(用于语音克隆的音色参考)

输入对话脚本(支持多个说话人标签)

配置说话人方言

选择每位说话人的语言方言(普通话、四川话、河南话、粤语等)

可为不同说话人设置不同方言

添加表现力标记

在文本中标注 [笑声]、[叹息] 等副语言事件

增强对话场景的真实感

生成与导出

点击合成按钮生成音频

导出为 WAV 或其他格式

配置建议

配置项 推荐值 说明
参考音频长度 5-10 秒 过短影响克隆质量,过长无明显收益
音频质量 16kHz 或以上采样率 降噪清晰的音频有助于更好的克隆效果
对话分段 单轮 100-500 字符 过长的单轮对白可能影响连贯性
并发任务 单任务执行 避免GPU显存溢出,需按队列处理

方言示例

河南

四川

粤语

结语

作为一名经常评估开源AI项目的产品经理,我认为 SoulX-Podcast 在对话多人场景和方言适配两个维度的组合是比较难得的。它不是"最强"的TTS,但对特定用户群体(播客创作者、有声书制作团队、内容创意工作者)来说,这套工具的垂直度较高。

部署成本相对可控,显卡要求在业界算中等水平。如果你有多人对话配音的需求、或想在内容中融入方言元素,这个项目值得一试。建议先通过一键包或在线Demo体验效果,再决定是否本地部署。

后续我会继续关注这个项目的迭代,特别是在跨语言混合和实时性能方面的改进。欢迎对语音合成感兴趣的朋友保持关注。


如需获取一键包可以关注「苏米客」公众号,回复「sou」关键词。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
#SoulX #SoulX-Podcast #方言tts #语音克隆 
收藏 1
Next.js 原生 MCP 来了:为什么 AI 编程在 Web 开发中需要这一层感知
这是最后一篇
推荐阅读
  • LlamaIndex:5 行代码把私有数据变成超级大脑(入门与实践指南)
  • ENScan_GO:各大企业信息聚合搜索,支持命令行、MCP、API、导出
  • FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
  • DocsGPT:给文档接入大模型秒变智能问答神器,让你告别翻文档的痛苦
  • SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
4499 3周前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
3989 3周前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
3186 1月前
SurfSense:私人AI研究助手,私有版的NotebookLM 和 Perplexity开源平替,
2790 2周前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
2611 3周前
KrillinAI:开源AI视频翻译配音工具,100种语言双向翻译,一键部署全流程
2583 2周前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
2578 2月前
FlyCut Caption:本地化开源智能视频多语言字幕识别与编辑工具
1950 1月前
Bytebot:开源AI桌面代理(Desktop Agent),给AI配一台自己的电脑
1903 1月前
NeuTTS Air:首个可离线运行的"拟人语音克隆”TTS模型
1897 3周前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 SoulX-Podcast:支持多人对话的方言tts,支持语音克隆,可现实长篇播客,文末一键包
2 Image2Prompt:一键将图片转换为 AI 绘画提示词的浏览器插件,完全开源免费使用
3 LazyCraft:本地化Agent平台的企业级选择,内置模型微调与细粒度权限控制
4 Pixeltable:用表格替代胶水代码,简化多模态AI流水线开发
5 database.build:把 Postgres 装进浏览器,让AI直接操作数据库
6 short-video-factory:5分钟教你搭建免费AI批量剪辑工具,轻松制作带货视频
7 BettaFish:多智能体舆情分析系统,从社媒监控到决策支持的完整链路
8 Sim :零门槛 AI 工作流神器,60+ 服务随意拼装
9 Social-Analyzer:用AI和多层检测技术追踪1000+社交平台上的身份足迹
10 Karakeep:开源自托管书签神器,AI智能标记让收藏更轻松
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联