苏米注:Seedance 2.0 API 全面开放后,AI 视频生成再次成为热点。这篇文章整理了 Seedance 2.0 提示词的完整指南,从 5 层结构、镜头关键词库到约束系统,都是实测有效的技巧。

一、Seedance 2.0 到底是什么
Seedance 2.0 不是文生视频工具,而是一个多模态电影片场。单次生成你能喂给它:
- 最多 9 张参考图(角色表、mood board、产品照、分镜)
- 最多 3 个视频片段(镜头运动参考、编舞、节奏)
- 最多 3 条音轨(配音、音乐、音效)
- 再加上文本提示
12 个参考文件同时丢进一个双分支扩散 Transformer,视频和音频在单次推理里一起出来。一次推理,同步输出带双声道立体声音频的视频。
核心能力:
- 唇同步支持 8+ 种语言(英语、普通话、日语、韩语、西班牙语、法语、德语、葡萄牙语及中文方言)
- 背景音乐和拟音
- 输出长度 4-15 秒,分辨率最高 1080p
- 音频视频同步完成
苏米注:Sora 2、Kling 3.0、Veo 3.1 都只吃文本 + 图片。Seedance 同时吃四种模态。如果你只会往提示框里打字,大概只用了这个工具 15% 的能力。
二、5 层提示词结构
官方文档给的是 6 元素公式,社区实测后压缩成了 5 层,效果比又臭又长的提示词稳定得多:
主体 > 动作 > 镜头 > 风格 > 约束
顺序很重要:
- 主体放前面,给模型一个重心,避免注意力被分散
- 动作第二位,提供动态锚点——其他元素变了,这个动作也得在
- 镜头第三位,趁模型还没开始每几秒重选一次焦距之前锁死构图
- 风格放后面,加视觉风味但不去抢运动的戏
- 约束最后兜底,把前面四层没堵住的漏洞补上
第 1 层:主体
主体描述得越细,效果越稳。

示例对比:
- ❌ 差:a woman
- ⭕ 还行:a young woman with brown hair
- ✅ 最好:a woman in her late 20s, tight dark curls at ear length, small silver hoop in left ear, wearing a fitted black turtleneck, neutral expression
踩坑记录:你多给一条身份标记,模型就少一次幻觉。头发长度、衣服质感、姿势、配饰、皮肤细节,不写清楚就会漂移。最安全的路径是单次生成只放一个人。
第 2 层:动作
现在时态,每个镜头一个主要运动。90% 的提示词死在这里——大家写的是状态,不是指令。

示例对比:
- ❌ 差:she looks happy and is enjoying the sunset
- ✅ 好:she slowly turns toward the camera, breeze lifting the hem of her skirt, eyes narrowing against the light
苏米注:一条几乎没人遵守的规则——主体运动和镜头运动永远分开写。
"spinning camera around a dancing person" 是一条指令,模型根本不知道谁该转。改成 "the dancer spins slowly, camera holds fixed framing",歧义拆成两条清晰指令,大部分抖动和混乱输出都会消失。
第 3 层:镜头
Seedance 把镜头方向当作一等条件信号,这是它跟其他产品拉开差距的核心。

每次生成只给一个主要镜头运动。用节奏词描述(slow, smooth, gentle),别堆技术规格。
镜头关键词库
静态镜头:
- fixed / locked-off —— 完全不动
- static wide —— 广角固定 establishing shot
- locked tripod, zero camera shake —— 环境有抖动时用来锁死画面
运动镜头:
- push-in / dolly in —— 推,制造张力、情感特写
- pull-out / dolly out —— 拉,交代环境、给 context
- pan left/right —— 水平摇,扫描、跟随动作
- tracking shot / follow —— 跟拍,和主体并排移动
- orbit / arc / 360 orbit —— 环绕,产品展示、肖像、英雄时刻
- aerial / drone shot —— 航拍,风景、交代地理
- handheld —— 手持抖动,纪录片感、UGC 真实感
- crane up/down —— 升降,戏剧性高度 reveal
- gimbal —— 稳定平滑运动,精致电影感
- steadicam walk —— 稳定跟随角色向前移动
- whip pan —— 快速横摇,紧迫感、转场
- dolly zoom —— 希区柯克眩晕效果,主体大小不变背景扭曲
- rack focus —— 移焦,在前景和背景之间转移注意力
速度修饰词:
- imperceptible / barely —— 极慢,几乎察觉不到
- slow / gentle / gradual —— 最安全,默认推荐
- smooth / controlled —— 自然节奏
- dynamic / swift —— 高冲击力,慎用
踩坑记录:"fast" 是 Seedance 提示词里最危险的词。fast camera + fast subject + busy scene 这套组合几乎必出抖动和压缩伪影。修复方法:只让一样东西快,其他全部稳住。
第 4 层:风格
灯光、调色、电影参考、氛围。

苏米注:官方 Volcengine 指南说,灯光描述对视频质量的影响是最大的,比风格形容词大,比 quality modifier 大,比分辨率请求大。
稳定产出的灯光词
- golden hour —— 性价比最高的单条改进
- rim light / dramatic rim light against dark background —— 电影感边缘分离
- soft key from 45 degrees —— flattering 访谈灯光
- overcast daylight / even overcast diffused light —— 消除明亮场景的闪烁
- backlit silhouette at sunset —— 戏剧性氛围
- motivated lighting from practical source —— 光源在画面里可见,真实感
- volumetric fog —— 大气深度,适合配背光
- chiaroscuro —— 《教父》式高对比灯光
调色
- teal and orange —— 经典好莱坞
- bleach bypass —— 低饱和、粗糙、高对比
- warm tone / amber-tinted —— 怀旧感
- crushed blacks —— 深沉电影感暗部
- pastel —— 柔和动漫或时尚 aesthetic
电影参考(风格锚点)
- cinematic film tone, 35mm —— 最稳的万能锚点
- 16mm film, handheld camera —— 原始独立电影感
- anamorphic lens flare —— 宽银幕电影感
- national geographic quality —— 自然纪录片质感
- documentary-style handheld framing —— 观察性现实主义
踩坑记录:"cinematic" 单独用等于没给模型任何约束。"cinematic film tone, 35mm, warm golden lighting" 给了三个交叉约束;而单一个 cinematic 等于告诉它"随便发挥"。
第 5 层:约束
这是护栏层,也是 AI 感视频和"看不出来是 AI"的视频之间的分界线。

每个角色提示必加的约束
- avoid jitter —— 画面别抖
- avoid bent limbs —— 胳膊腿别扭曲,每次写角色提示都必须加,没有例外
- avoid identity drift —— 角色特征别在镜头间变了样
- avoid temporal flicker —— 帧间亮度别跳
- no distortion, no stretching —— 保持几何稳定
- maintain face consistency —— 脸别跨镜头变脸
社区通用质量后缀
sharp clarity, natural colors, stable picture, no blur, no ghosting, no flickering
苏米注:听起来不优雅,但确实有用。模型读正向约束陈述比读否定提示更靠谱,所以 "avoid X" 和 "maintain Y" 比列一堆 "no XXX" 表现更好。
看起来有用,其实没用的词
- fast(不加限定)—— 会让模型同时加速所有东西。要明确说哪一个快,其他稳住。
- cinematic(单独用)—— 没给模型任何可执行信息。必须跟纹理、灯光或电影参考一起用。
- epic—— 对扩散模型来说没有视觉意义。
- amazing / beautiful / stunning—— 这是感受,不是指令,模型渲染不了形容词。
- lots of movement—— 会触发全画面抖动。要说出一个具体的运动。
- glow / glimmer / glints—— 产生镜面闪烁。换成 steady intensity 或 diffuse。
三、时间轴分镜:在 15 秒里切多个镜头
Seedance 真正跟其他模型不一样的地方:你可以在单次 15 秒生成里用时间戳来导演分镜。
格式 A(方括号)
[0-4s]: wide establishing shot, static camera, misty bamboo forest at dawn
[4-9s]: medium shot, slow push-in, the fighter steps forward
[9-15s]: close-up, orbit shot, the fighter strikes, slow motion
格式 B(圆括号)
(0-3s) macro shot of perfume bottle among pink flowers
(3-7s) camera glides closer, a feminine hand enters frame
(7-12s) slow-motion spray, mist diffuses in air
(12-15s) pull-out to hero frame, product centered
15 秒高潮弧模板
[0-4s]: wide shot, static, world established
[4-8s]: medium shot, slow push-in, tension building
[8-12s]: close-up, emotional peak approaching
[12-15s]: extreme close-up or dramatic reveal, climax action
苏米注:wide → tighter → tight → closest,电影里最常用的升级模式,直接套进 15 秒的生成窗口里。
引用语法
每个上传的文件在提示词里都必须有明确角色。使用 @Image1、@Image2 等标签。
首帧 - 末帧技术:上传你想要的首帧作为 @Image1,末帧作为 @Image2,描述中间发生什么,Seedance 会自动插值出连接两端的连贯运动。
四、5 个示例:从简单到完整多模态
示例 1:口播视频 (UGC)
[IMG:口播视频示例]
15 seconds UGC style review video, filmed on smartphone, natural bedroom
window lighting, casual handheld selfie angle, a young woman with brown
hair pulled back, natural skin with visible texture...
示例 2:产品英雄片
ultra cinematic 15-second luxury product commercial, smooth continuous
sequence elegant pacing, fluid cinematic glide macro dolly plus soft
orbit plus gentle push-ins...
示例 3:电影感场景
cinematic film tone 35mm warm golden hour lighting, a man in his 40s
with weathered features sits at a wooden desk in a sun-drenched workshop
carefully carving walnut wood, slow push-in...
示例 4:动作序列(带时间码)
high-intensity cinematic fight in a misty bamboo forest 15 seconds photorealistic,
[0-4s]: wide establishing shot static camera mist rolling between bamboo stalks
[4-8s]: medium tracking shot the fighter in white lunges forward...
示例 5:完整多模态制作
- @Image1 角色参考(保持面部和服装)
- @Image2 环境参考(匹配灯光和色调)
- @Video1 镜头运动参考(复刻慢速环绕)
- @Audio1 背景音乐(转场跟节拍对齐)
五、迭代工作流
先用提示词生成 2-3 个基线版本,然后只改一个变量——镜头、灯光、速度修饰词,就一样。

给每次生成在连续性和 adherence(遵循度)上打分,保留最好的,再改下一个变量。
苏米注:生成失败后的本能反应是重写整个提示词,同时改主体、镜头、风格、灯光——问题是下次失败的原因完全不同,你永远不知道到底什么有用、什么拖后腿。受控迭代虽然每轮慢一点,但收敛更快。
六、总结
Seedance 2.0 是目前最强的多模态视频模型。
5 层结构、关键词库、约束系统、@ 引用标签——上面这些就是完整工具包。

成本计算公式(火山引擎 Seedance 2.0 portal):
- 0.046 元/千 tokens
- Token 数 = (宽 x 高 x 帧率 x 时长)/(1024x 条数)
建议收藏,生成时开着这篇参考用,而不是读完就丢。