10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入

1小时前 AI开源项目 9 0

这个视频中,风刮玻璃、狂野感的森林环境音和鸟叫声、火球发射后爆炸声、布鞋踩在松软草原的脚步声——这些一系列场景的配音都是 AI 生成的。

今天要推荐的开源语音大模型 AudioX-Turbo,能把视频场景直接转成高质量配音,效果确实惊艳。

图片 1

01 项目简介

AI 视频生成这一年卷得离谱,Seedance、可灵等已经把效果拉到电影级。但 AI 音频这边还有不少痛点:主流方案还在用几十步甚至上百步的扩散采样,生成一段 10 秒的音频要等好一阵。

港科大、清华联合 Noiz AI 刚开源了 AudioX-Turbo,目标就是解决极速推理与精准可控两大难题。

它是一个统一的 Anything-to-Audio 生成框架。输入支持纯文本、纯视频、纯音频,或者任意组合。输出都是声音,可以是音效、环境音,也可以是音乐。

  • 开源地址:https://github.com/NoizAI/AudioX-Turbo
  • 论文:https://arxiv.org/abs/2606.12555
  • 模型权重:https://huggingface.co/HKUSTAudio/AudioX-Turbo

02 效果展示

文字生成音频:在键盘上打字、烟花绽放两次后钟声滴答作响

文字生成音乐:平滑的城市 R&B 节拍、适合旅行视频的振奋人心尤克里里曲调

视频转音频:根据视频画面自动生成匹配的环境音和音效

视频转音乐:根据视频情绪自动生成配乐

03 两大核心能力

一个模型干 6 件事

大多数音频生成模型都是单一任务,AudioX-Turbo 把 6 种任务装进了一个模型:文本生成音频、文本生成音乐、视频生成音频、视频生成音乐、文本加视频生成音频、文本加视频生成音乐。

更关键的是生成速度极快——4 步就能出结果。这是 AudioX-Turbo 最核心的能力。

技术路径走的是师生蒸馏:先用完整的多步扩散模型 AudioX-Base 当老师,再用 Distribution Matching Distillation 配合扩散判别器,把它压缩成 4 步就能出结果的 AudioX-Turbo。

对实际应用来说,响应延迟可以从分钟级降到秒级,做实时交互的 AI 音频工具有了可行性。

图片 2

数据壁垒

训练数据是这类大模型项目的核心壁垒。AudioX-Turbo 自建了 IF-caps-Pro 数据集,规模约 920 万条样本,通过两阶段数据采集和标注流程构建。

社区里大多数开源音频模型要么用 5 万条的 AudioCaps,要么用 5 千条的 MusicCaps,数据量级直接被拉开了一个数量级。

04 怎么用起来

官方推荐 A100 或 H800、CUDA 12.1,DeepSpeed 训练路径还需要完整 CUDA toolkit。普通个人玩家跑推理勉强,完整复现训练基本要实验室级别。

安装步骤

# Clone the repository
git clone https://github.com/NoizAI/AudioX-Turbo.git
cd AudioX-Turbo

# Create a conda environment
conda create -n audiox-turbo python=3.8.20
conda activate audiox-turbo

# Install media libraries
conda install -c conda-forge ffmpeg libsndfile

# Install dependencies
pip install -r requirements.txt
pip install -e . --no-deps
pip install soundfile==0.12.1

模型权重托管在 HuggingFace,用 huggingface-cli 下载:

pip install -U "huggingface_hub[cli]"

# Inference checkpoints (student + VAE + Synchformer)
huggingface-cli download HKUSTAudio/AudioX-Turbo \
  audiox_turbo/audiox_turbo.ckpt pretransform/vae.ckpt synchformer/synchformer_state_dict.pth \
  --local-dir checkpoints

# Training only: teacher / base model
huggingface-cli download HKUSTAudio/AudioX-Turbo \
  pretrained_ckpt/pretrained_ckpt.ckpt \
  --local-dir checkpoints

推理方式

Gradio 一行命令启动:

python run_gradio.py  # http://localhost:7860
python run_gradio.py --share # 生成公开链接

Python API 调用:核心是 load_audiox_turbo_model 加载模型,generate_diffusion_cond_dmd 跑 4 步生成,最后用 torchaudio.save 落盘。仓库给了完整的示例代码,包括视频条件下的 Synchformer 特征提取、音频后处理、视频音频合并等。

写在最后

AudioX-Turbo 把音频生成从"慢但可控"推进到了"又快又可控"的阶段。

4 步推理 + 多模态输入,意味着实时 AI 配音工具终于有了落地基础。对于视频创作者来说,再也不用手动找音效和配乐了。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
#AudioX-Turbo #音频生成 #开源大模型 #多模态 #AI音乐 
收藏 1
讯飞星辰 MaaS 限时免费:Qwen3.6-35B 无限 Token 白嫖攻略,可接入 Claude Code
Nex-N2-Pro 开源模型,性能对标 GPT-5.5,专为 Agent 场景设计,限时免费
推荐阅读
  • FlyMD:一款本地优先、集成 AI 与 PDF 解析能力的 Markdown 编辑器
  • SQLBot:不会写 SQL 也能轻松用AI问出来的开源神器
  • Edict:让你的openclaw 开设唐朝的三省六部制度设计的Multi-Agent 框架
  • LocalAI:不花钱、不断网、不怕泄密,把 AI 大模型装进你的本地服务器!
  • Mano-P 4B:本地开源 GUI 模型,把任何 App 当 Skill 用
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9810 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9761 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7712 5月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6907 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6818 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6703 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6607 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6596 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5903 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5858 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
2 DBX 开源数据库客户端:Navicat 轻量替代,SQL 编辑/结构对比/数据迁移全支持
3 Amplication 开源后端代码生成平台:5 分钟生成生产级 CRUD,可商用可私有部署
4 抖音对标账号采集 + 多平台自动发布:开源短视频运营中台工具推荐
5 Understand Anything 开源项目:祖传代码一键变可视化知识图谱,支持 Claude Code/Cursor/Copilot
6 yao-meta-skill:从提示词到工程化 Skill 包的完整框架
7 gemini-nano-chrome:一键启用 Chrome 内置 Gemini Nano,提供 OpenAI 兼容 API
8 Ghostty Blackhole:用光线追踪黑洞可视化 Claude Code 上下文使用率
9 Headroom:AI Agent 上下文压缩工具,token 节省 60-95% 的开源方案
10 Taste Skill:反 AI 味前端框架,让 AI 编程助手生成专业级设计界面
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联