当前位置：首页 » AI产品百科

字节 Seed-Audio 1.0 实测：从语音合成到语音创作的突破

1小时前 AI产品百科 11 0

字节的多模态模型，这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0，结果不废话，先看一个具体的 Case。

让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围，全部是一个 Prompt 直接生成的，没有任何后期处理。而且 Prompt 非常简单，不需要任何专业词汇。

这是我测试的第一个 Case。生成出来的时候，忍不住喊了一声——太牛了。这完全已经不是传统的 TTS 模型了。

之前的 TTS 模型更多是在做语音合成：克隆一个已有的声音，或者通过提示词描述一种声音，最后生成一段音频。但 Seed-Audio 1.0 是在做纯粹的语音生成——模型会思考音频本身处在什么环境中、带着什么情绪，然后再把这一切转化为声音。

比如下面这个案例：风格可以从激昂到平淡任意转换，背景音可以有哨声、观众呐喊声等等。

短短十几秒，从后场推进到最后完成射门，节奏非常干净。主播一说："这就是世界杯的魅力。一瞬间，就能改变整场比赛。"最后让电视回放声和球迷欢呼声慢慢淡出。

太震撼了。Seed-Audio 1.0 这次带来的变化，和当时 Seedance 2.0 给视频模型领域带来的变化非常类似。当时 Seedance 2.0 最让人触动的一点是：终于可以直接描述脑海里的画面，而不用再思考镜头应该怎么拍。今天的 Seed-Audio 1.0 给我的感觉也很像。

过去做音频的时候，我们更多是在描述声音本身：音色是什么，语气是什么，情绪是什么。但这次发现，自己开始描述一个故事。比如杜甫刚刚听到收复失地的消息时是什么状态——是激动，是释然，还是带着一点不敢相信。

这些东西以前都需要通过配音、音效和后期一点点拼出来。现在只需要把脑海中的画面写出来，剩下的事情模型会把它变成这个场景中的声音。背景音乐、环境音效和人声统一生成。

再看一个 Case：这是生成的截图，一次直出，连抽卡都没抽。就这个效果，甚至可以直接当成品来用。

人物在说话时的那种试探、迟疑、思考的情绪居然被表达出来了。Seed-Audio 1.0 模型处理得非常好。这个能力完全可以用在真实的影视剧配音当中了。

在影视剧里，一个角色的音色是固定的，但同一个人会经历完全不同的情绪——从开心、愤怒，到悲伤、绝望，甚至崩溃。这些变化其实比音色本身更难。过去很多模型听起来只是同一个声音换了一种语气，本质上还是在念稿。现在 Seed-Audio 1.0 完全可以搞定。

从语音合成走向语音创作

Seed-Audio 1.0 让我第一次意识到，语音模型可能正在从语音合成走向语音创作。

过去这些年，整个 TTS 行业都在卷拟真度、情绪控制和声音克隆，目标是让 AI 把一句话念得越来越像真人。这背后是一套典型的语音合成逻辑：文字是输入，声音是输出。中间优化的所有东西，无论是音色克隆、情绪表达还是语速控制，本质上都在服务同一个目标——把声音生成得更真实。

但 Seed-Audio 1.0 让我看到了另一种逻辑。语音合成关注的是"一句话怎么念"，语音创作关注的是"一个场景应该怎么被表达"。

顺手试了一个更日常的场景：直播带货。给它的任务不是念一段卖点，而是直接生成一个直播间。生成出来的效果最有意思的地方是，你能听到主播剥荔枝的声音、泡沫箱等等音效。背景里的促销音乐也没有从头到尾平铺，而是一阵一阵往上顶。

也许未来，我们可以直接把一本小说里的文字发给模型，里面有旁白、有对白、有情绪变化、有人物关系、也有环境描写。不需要再手动拆分角色，不需要再单独设计配音方案，直接把整本书交给模型，它自己理解剧情的发展、人物的状态和场景的变化，然后把整个故事演绎出来。

苏米注：如果真到了那一天，我们创作音频的方式可能会和今天完全不同。这是我第一次看到音频创作未来的模样。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论