10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

SoulX-Transcriber 开源多人对话转录模型:端到端架构,性能登顶公开基准测试

1小时前 AI开源项目 12 0

语音转文字(ASR)技术在 AI 时代已广泛应用,从会议记录到播客字幕,从在线教育到社交媒体,几乎每一个与语音相关的场景都离不开转录技术的支持。然而,当场景从单人演讲转向多人对话时,传统转录系统面临诸多挑战:多人同时发言、语速飞快重叠、主持人与嘉宾快速切换、同一个人声音在不同环境下差异巨大等。

本周,这一领域迎来重要突破:Soul App 联合西北工业大学 ASLP@NPU 团队及 Moonstep AI,正式开源了端到端多人对话转录模型 SoulX-Transcriber。

SoulX-Transcriber 是一款专为长音频、多说话人场景设计的语音理解模型。与传统依赖级联流水线的系统不同,它采用统一的端到端架构,能够直接从多人对话音频中生成包含时间戳、说话人身份、转录文本的完整结构化结果。

该项目由三方联合打造:

  • Soul AI Lab:Soul App 的 AI 技术团队,在语音技术领域有深厚积累,此前还开源过 SoulX-Podcast 播客生成模型
  • ASLP@NPU:西北工业大学音频语音与语言处理研究组,国内顶尖的语音技术研究团队
  • Moonstep AI:专注于 AI 音频技术的创新公司

从技术路线来看,SoulX-Transcriber 摒弃了传统的"说话人分割 + 语音识别"分开处理的方式,将两个任务融合在一个统一的大语言模型框架中。这种端到端的设计让模型能够更自然地处理多人对话中常见的重叠、快速切换、同性别混淆等棘手问题。

三大核心亮点

1. 性能登顶公开基准测试

在多人对话转录领域,AISHELL-4、AliMeeting 等是公认的权威基准测试数据集。SoulX-Transcriber 在这些测试中均取得领先表现,甚至大幅超越 Gemini 3.1 Pro、Qwen3.5-Omni 等闭源大模型。

更令人印象深刻的是,在内部多领域测试(社交对话、影视剧、播客)中,SoulX-Transcriber 同样表现突出,在社交对话场景下 DER 低至 1.32%。

2. 说话人感知的多阶段训练

SoulX-Transcriber 采用说话人感知的多任务持续预训练 + 有监督微调的两阶段训练方法。这种方法的优势在于:

  • 显著增强模型对说话人特征的表示能力
  • 大幅提升对多人对话场景的鲁棒性
  • 有效缓解同性别说话人混淆、语音重叠、边界划分错误等常见问题

在传统系统中,这些问题往往需要复杂的后处理算法来解决,而 SoulX-Transcriber 通过端到端训练就能自然地处理。

3. 更自然的对话生成与数据增强

为提升模型在真实场景下的泛化能力,团队提出了一套基于说话人特征驱动的音频匹配流水线。通过这种方式,团队能够生成海量高质量的多人对话训练数据,让模型在各种真实场景下都能有出色表现。

快速上手

1. 克隆项目代码并创建环境:

git clone https://github.com/Soul-AILab/SoulX-Transcriber.git
cd SoulX-Transcriber

# 创建 conda 环境
conda create -n soulx_transcriber python=3.12 -y
conda activate soulx_transcriber

# 安装 MS-Swift 和依赖
pip install ms-swift

预训练模型权重已在 Hugging Face 和 ModelScope 开放下载:

  • Hugging Face:https://huggingface.co/Soul-AILab/SoulX-Transcriber
  • ModelScope:https://modelscope.cn/models/Soul-AILab/SoulX-Transcriber

2. 使用 vLLM-Omni 进行推理:

cd your_env_path/

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 创建新的 uv 环境(使用阿里云镜像)
uv venv vllm_omni --python 3.12 --seed --index-url https://mirrors.aliyun.com/pypi.simple/

# 激活 uv 环境
source vllm_omni/bin/activate

# 安装 vLLM
uv pip install vllm --torch-backend=auto --index-url https://mirrors.aliyun.com/pypi.simple/

# 安装 vllm-omni
uv pip install vllm-omni --index-url https://mirrors.aliyun.com/pypi.simple/

3. 运行推理脚本:

source your_env_path/vllm_omni/bin/activate
bash ./inference.sh

应用场景

  • 会议记录:自动生成带说话人标注的会议纪要
  • 播客字幕:为播客节目自动生成精准字幕,区分不同嘉宾
  • 影视剧台词提取:自动提取影视剧台词,区分不同角色
  • 在线教育:记录课堂讨论,生成结构化学习资料
  • 社交媒体内容分析:分析语音直播、语音聊天室内容
  • 法律取证:精准转录多人对话录音材料
  • 医疗问诊记录:记录医患对话,生成结构化病历

相关链接

  • 项目页面:https://soul-ailab.github.io/soulx-transcriber/
  • GitHub:https://github.com/Soul-AILab/SoulX-Transcriber
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:SoulX-Transcriber 开源多人对话转录模型:端到端架构,性能登顶公开基准测试
#SoulX-Transcriber #开源 #语音识别 #多人对话 #ASR 
收藏 1
Codex Claude Code /goal 长时间运行指南:解决自动停止问题
Kimi Work 桌面 Agent:支持 300 个 Agent 并行,实现网页数据抓取与分析
推荐阅读
  • n8n-workflows:2000+ 自动化工作流免费开源!这才是真正的效率宝库
  • xiaohu-wechat-format:一句话搞定公众号排版、封面生成、发布的Skills
  • pi-mono 详解:4 万 Star 的 AI Agent 底层框架,OpenClaw 为什么选它?
  • 毕昇BISHENG:Dify限制太多?试试这款开源可商用的LLM开发平台
  • awesome-gpt-image-2:1849 条 GPT Image 2 提示词精选,覆盖 16 个场景类别
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9401 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9150 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7187 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6403 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6271 8月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6154 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6047 7月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
5892 5月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5612 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5539 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 SoulX-Transcriber 开源多人对话转录模型:端到端架构,性能登顶公开基准测试
2 Cua 开源项目:让 AI Agent 安全控制桌面的三层架构(1.7万 Star)
3 OmniVoice Studio:免费开源AI语音生成工具,3秒克隆音色+视频自动配音
4 MarkItDown:微软开源文档转Markdown工具,14万Star助力AI数据处理
5 Lingji Cut(灵剪):开源本地优先的 AI 视频全链路创作工作台
6 claude-tap:AI Agent 的流量监控与 Token 分析利器
7 Understand-Anything:4.7 万 Star 的开源代码理解工具,快速梳理老旧项目
8 html-anything:从 Markdown 到精美 HTML,只需要点一点(附 75 个模板)
9 OpenSquilla:智能路由 + MetaSkill,让 Agent 省钱又稳定执行的开源方案
10 Understand-Anything:一周 2.6 万 Star,代码库秒变知识图谱,Token 省一半
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联