当前位置：首页 » AI开源项目

SoulX-Transcriber 开源多人对话转录模型：端到端架构，性能登顶公开基准测试

1月前 AI开源项目 704 0

语音转文字（ASR）技术在 AI 时代已广泛应用，从会议记录到播客字幕，从在线教育到社交媒体，几乎每一个与语音相关的场景都离不开转录技术的支持。然而，当场景从单人演讲转向多人对话时，传统转录系统面临诸多挑战：多人同时发言、语速飞快重叠、主持人与嘉宾快速切换、同一个人声音在不同环境下差异巨大等。

本周，这一领域迎来重要突破：Soul App 联合西北工业大学 ASLP@NPU 团队及 Moonstep AI，正式开源了端到端多人对话转录模型 SoulX-Transcriber。

SoulX-Transcriber 是一款专为长音频、多说话人场景设计的语音理解模型。与传统依赖级联流水线的系统不同，它采用统一的端到端架构，能够直接从多人对话音频中生成包含时间戳、说话人身份、转录文本的完整结构化结果。

该项目由三方联合打造：

Soul AI Lab：Soul App 的 AI 技术团队，在语音技术领域有深厚积累，此前还开源过 SoulX-Podcast 播客生成模型
ASLP@NPU：西北工业大学音频语音与语言处理研究组，国内顶尖的语音技术研究团队
Moonstep AI：专注于 AI 音频技术的创新公司

从技术路线来看，SoulX-Transcriber 摒弃了传统的"说话人分割 + 语音识别"分开处理的方式，将两个任务融合在一个统一的大语言模型框架中。这种端到端的设计让模型能够更自然地处理多人对话中常见的重叠、快速切换、同性别混淆等棘手问题。

三大核心亮点

1. 性能登顶公开基准测试

在多人对话转录领域，AISHELL-4、AliMeeting 等是公认的权威基准测试数据集。SoulX-Transcriber 在这些测试中均取得领先表现，甚至大幅超越 Gemini 3.1 Pro、Qwen3.5-Omni 等闭源大模型。

更令人印象深刻的是，在内部多领域测试（社交对话、影视剧、播客）中，SoulX-Transcriber 同样表现突出，在社交对话场景下 DER 低至 1.32%。

2. 说话人感知的多阶段训练

SoulX-Transcriber 采用说话人感知的多任务持续预训练 + 有监督微调的两阶段训练方法。这种方法的优势在于：

显著增强模型对说话人特征的表示能力
大幅提升对多人对话场景的鲁棒性
有效缓解同性别说话人混淆、语音重叠、边界划分错误等常见问题

在传统系统中，这些问题往往需要复杂的后处理算法来解决，而 SoulX-Transcriber 通过端到端训练就能自然地处理。

3. 更自然的对话生成与数据增强

为提升模型在真实场景下的泛化能力，团队提出了一套基于说话人特征驱动的音频匹配流水线。通过这种方式，团队能够生成海量高质量的多人对话训练数据，让模型在各种真实场景下都能有出色表现。

快速上手

1. 克隆项目代码并创建环境：

git clone https://github.com/Soul-AILab/SoulX-Transcriber.git
cd SoulX-Transcriber

# 创建 conda 环境
conda create -n soulx_transcriber python=3.12 -y
conda activate soulx_transcriber

# 安装 MS-Swift 和依赖
pip install ms-swift

预训练模型权重已在 Hugging Face 和 ModelScope 开放下载：

Hugging Face：https://huggingface.co/Soul-AILab/SoulX-Transcriber
ModelScope：https://modelscope.cn/models/Soul-AILab/SoulX-Transcriber

2. 使用 vLLM-Omni 进行推理：

cd your_env_path/

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 创建新的 uv 环境（使用阿里云镜像）
uv venv vllm_omni --python 3.12 --seed --index-url https://mirrors.aliyun.com/pypi.simple/

# 激活 uv 环境
source vllm_omni/bin/activate

# 安装 vLLM
uv pip install vllm --torch-backend=auto --index-url https://mirrors.aliyun.com/pypi.simple/

# 安装 vllm-omni
uv pip install vllm-omni --index-url https://mirrors.aliyun.com/pypi.simple/

3. 运行推理脚本：

source your_env_path/vllm_omni/bin/activate
bash ./inference.sh

应用场景

会议记录：自动生成带说话人标注的会议纪要
播客字幕：为播客节目自动生成精准字幕，区分不同嘉宾
影视剧台词提取：自动提取影视剧台词，区分不同角色
在线教育：记录课堂讨论，生成结构化学习资料
社交媒体内容分析：分析语音直播、语音聊天室内容
法律取证：精准转录多人对话录音材料
医疗问诊记录：记录医患对话，生成结构化病历