字节的多模态模型,这水准真的没得说。早上体验了他们新发的豆包音频生成模型 Seed-Audio 1.0,结果不废话,先看一个具体的 Case。
让它以杜甫的口吻吟诵《闻官军收河南河北》。声音表现、情绪起伏和声场氛围,全部是一个 Prompt 直接生成的,没有任何后期处理。而且 Prompt 非常简单,不需要任何专业词汇。

这是我测试的第一个 Case。生成出来的时候,忍不住喊了一声——太牛了。这完全已经不是传统的 TTS 模型了。
之前的 TTS 模型更多是在做语音合成:克隆一个已有的声音,或者通过提示词描述一种声音,最后生成一段音频。但 Seed-Audio 1.0 是在做纯粹的语音生成——模型会思考音频本身处在什么环境中、带着什么情绪,然后再把这一切转化为声音。
比如下面这个案例:风格可以从激昂到平淡任意转换,背景音可以有哨声、观众呐喊声等等。

短短十几秒,从后场推进到最后完成射门,节奏非常干净。主播一说:"这就是世界杯的魅力。一瞬间,就能改变整场比赛。"最后让电视回放声和球迷欢呼声慢慢淡出。
太震撼了。Seed-Audio 1.0 这次带来的变化,和当时 Seedance 2.0 给视频模型领域带来的变化非常类似。当时 Seedance 2.0 最让人触动的一点是:终于可以直接描述脑海里的画面,而不用再思考镜头应该怎么拍。今天的 Seed-Audio 1.0 给我的感觉也很像。
过去做音频的时候,我们更多是在描述声音本身:音色是什么,语气是什么,情绪是什么。但这次发现,自己开始描述一个故事。比如杜甫刚刚听到收复失地的消息时是什么状态——是激动,是释然,还是带着一点不敢相信。
这些东西以前都需要通过配音、音效和后期一点点拼出来。现在只需要把脑海中的画面写出来,剩下的事情模型会把它变成这个场景中的声音。背景音乐、环境音效和人声统一生成。
再看一个 Case:这是生成的截图,一次直出,连抽卡都没抽。就这个效果,甚至可以直接当成品来用。

人物在说话时的那种试探、迟疑、思考的情绪居然被表达出来了。Seed-Audio 1.0 模型处理得非常好。这个能力完全可以用在真实的影视剧配音当中了。
在影视剧里,一个角色的音色是固定的,但同一个人会经历完全不同的情绪——从开心、愤怒,到悲伤、绝望,甚至崩溃。这些变化其实比音色本身更难。过去很多模型听起来只是同一个声音换了一种语气,本质上还是在念稿。现在 Seed-Audio 1.0 完全可以搞定。
从语音合成走向语音创作
Seed-Audio 1.0 让我第一次意识到,语音模型可能正在从语音合成走向语音创作。
过去这些年,整个 TTS 行业都在卷拟真度、情绪控制和声音克隆,目标是让 AI 把一句话念得越来越像真人。这背后是一套典型的语音合成逻辑:文字是输入,声音是输出。中间优化的所有东西,无论是音色克隆、情绪表达还是语速控制,本质上都在服务同一个目标——把声音生成得更真实。
但 Seed-Audio 1.0 让我看到了另一种逻辑。语音合成关注的是"一句话怎么念",语音创作关注的是"一个场景应该怎么被表达"。
顺手试了一个更日常的场景:直播带货。给它的任务不是念一段卖点,而是直接生成一个直播间。生成出来的效果最有意思的地方是,你能听到主播剥荔枝的声音、泡沫箱等等音效。背景里的促销音乐也没有从头到尾平铺,而是一阵一阵往上顶。
也许未来,我们可以直接把一本小说里的文字发给模型,里面有旁白、有对白、有情绪变化、有人物关系、也有环境描写。不需要再手动拆分角色,不需要再单独设计配音方案,直接把整本书交给模型,它自己理解剧情的发展、人物的状态和场景的变化,然后把整个故事演绎出来。
苏米注:如果真到了那一天,我们创作音频的方式可能会和今天完全不同。这是我第一次看到音频创作未来的模样。