最近在体验新的AI语音生成工具时,发现了一个不错的tts方言包,支持多人对话的方言tts:SoulX-Podcast。
作为一名经常接触各类AI开源项目的产品经理,我注意到语音合成领域正在从单人独白向多人对话场景演进。
这个项目的特别之处在于,它不仅支持多轮、多说话人的对话生成,还能处理中文方言和语音克隆,填补了播客风格语音生成的一些空白。
今天就和大家分享一下我的体验与部署思路。
项目概述
SoulX-Podcast 是由 Soul-AILab 开发的一款专门为播客和对话类场景优化的文本转语音(TTS)模型。

与传统的单人叙述TTS不同,它在以下方面有明确的定位:
- 应用场景定位:长篇内容、多轮对话、多说话人场景(如播客、有声书对白、剧本朗读等)
- 语言覆盖:普通话、英语、以及四川话、河南话、粤语等多种中文方言
- 技术特征:零样本语音克隆、副语言事件控制(笑声、叹息等)
- 模型规模:基础版本为 1.7B 参数量,提供通用和方言两个版本
项目地址:https://github.com/Soul-AILab/SoulX-Podcast
modelscope:https://modelscope.cn/models/Soul-AILab/SoulX-Podcast-1.7B/summary
核心功能分析
| 功能维度 | 具体表现 | 使用门槛 |
|---|---|---|
| 多人对话生成 | 支持多轮、多说话人的连续语音合成,对话流畅度优于单人TTS级联方案 | 需准备对话稿件和说话人音频样本 |
| 方言支持 | 内置四川话、河南话、粤语等方言模型,可直接调用 | 低——预置模型,无需额外训练 |
| 零样本语音克隆 | 上传参考音频即可克隆语音特征,跨方言兼容 | 中等——需要清晰的参考音频样本(5-10秒建议) |
| 副语言控制 | 支持插入笑声、叹息等情感标记,增强对话自然度 | 低——通过文本标签标注 |
与同类工具的对比
在当前的开源TTS生态中,类似的方向还有:
- Fish-Speech:侧重流畅度和自然度,但多人对话支持相对有限
- GPT-SoVITS:个性化克隆能力强,但适配方言能力弱
- Amphion:研究框架导向,功能完整但部署复杂度高
SoulX-Podcast 的差异化在于:将"对话场景"和"方言支持"作为一级功能,而非附加选项。这对播客创作者、有声书制作和剧本朗读等垂直场景更加友好。
部署与使用指南
1. 系统与环境要求
- 显卡显存:建议 8GB 及以上(实测占用约 8GB)
- Python 版本:3.11
- PyTorch 版本:务必为 2.7.1(其他版本存在兼容性风险)
- 操作系统:支持 Windows、Linux
2. Windows 部署流程
第一步:创建独立环境并安装 PyTorch GPU 版本
conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118
第二步:安装项目依赖
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install triton # 单独安装 triton 库
第三步:下载模型文件
pip install -U huggingface_hub
# 基础模型(通用版本)
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B
# 方言模型
huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect
3. 使用工作流
启动Web界面:运行项目启动脚本后,进入Web UI(通常为 http://localhost:7860)
一键包演示:
下载一键包,点击【01运行程序.bat】即可启动,页面如下:

准备输入内容
上传或使用预置参考音频(用于语音克隆的音色参考)
输入对话脚本(支持多个说话人标签)
配置说话人方言
选择每位说话人的语言方言(普通话、四川话、河南话、粤语等)
可为不同说话人设置不同方言
添加表现力标记
在文本中标注 [笑声]、[叹息] 等副语言事件
增强对话场景的真实感

生成与导出
点击合成按钮生成音频
导出为 WAV 或其他格式

配置建议
| 配置项 | 推荐值 | 说明 |
|---|---|---|
| 参考音频长度 | 5-10 秒 | 过短影响克隆质量,过长无明显收益 |
| 音频质量 | 16kHz 或以上采样率 | 降噪清晰的音频有助于更好的克隆效果 |
| 对话分段 | 单轮 100-500 字符 | 过长的单轮对白可能影响连贯性 |
| 并发任务 | 单任务执行 | 避免GPU显存溢出,需按队列处理 |
方言示例
河南
四川
粤语
结语
作为一名经常评估开源AI项目的产品经理,我认为 SoulX-Podcast 在对话多人场景和方言适配两个维度的组合是比较难得的。它不是"最强"的TTS,但对特定用户群体(播客创作者、有声书制作团队、内容创意工作者)来说,这套工具的垂直度较高。
部署成本相对可控,显卡要求在业界算中等水平。如果你有多人对话配音的需求、或想在内容中融入方言元素,这个项目值得一试。建议先通过一键包或在线Demo体验效果,再决定是否本地部署。
后续我会继续关注这个项目的迭代,特别是在跨语言混合和实时性能方面的改进。欢迎对语音合成感兴趣的朋友保持关注。
如需获取一键包可以关注「苏米客」公众号,回复「sou」关键词。