前言:你和顶级AI视频之间,差的不是创意,而是一套”语法系统”。
我见过太多人在 Seedance 2.0 面前碰壁。
他们脑子里有画面,有故事,甚至愿意为每次生成付费——但产出来的东西,永远带着一股挥之不去的”AI味”:人物肢体扭曲、镜头莫名抖动、画面忽明忽暗、角色前一秒还是短发下一秒就变了长发。
然后他们得出结论:”这个模型还是不行。”
Seedance 2.0 不是一个”文本转视频的搜索框”,它更像是一个多模态的虚拟片场。你往搜索框里打一句”一个女人在海边漫步,画面很美”——这就好比你走进一个配备了顶级摄影师、灯光师、美术指导的专业片场,然后对所有人喊了一句:”拍个好看的!”
结果可想而知。
每一个专业的片场,都需要一套精确的指令系统。 Seedance 2.0 也一样。它有自己的一套”语言”——关于镜头、灯光、运动和约束的精确关键词体系。用对了,同样 $0.60 的一次生成,产出的是能让人停下拇指的影视级画面;用错了,产出的就是千篇一律的AI素材。
今天这篇教程,我将把这套语言体系完整地、彻底地交给你。
这套框架来自数百次实际生成测试、火山引擎官方技术文档、以及社区中经过验证确实有效的技巧,最终压缩成了你在生成时唯一需要打开的参考手册。内容包括:
- ✅ Seedance 2.0 的核心能力与认知刷新
- ✅ 5层提示词架构(The 5-Layer Prompt Stack)的完整拆解
- ✅ 镜头、灯光、约束的完整关键词库
- ✅ 时间码多镜头编排的进阶用法
- ✅ @引用系统的正确打开方式
- ✅ 5个从入门到专业的即用型提示词模板
- ✅ 一份”提示词黑名单”——那些看起来有用、实际会毁掉画面的词
内容较长,建议收藏后反复对照使用。我们开始。
第一章:重新认识 Seedance 2.0 —— 它到底能吃什么?
在讲提示词之前,你必须先搞清楚一件事:Seedance 2.0 的输入能力,远超你的想象。
大部分人只是在提示词框里打字,然后点生成。但这仅仅用到了这个模型大约 15% 的能力。
Seedance 2.0 真正强大的地方在于,它能在单次生成中同时处理四种模态的输入:
| 输入模态 | 具体能力 | 数量上限 |
|---|---|---|
| 📝 文本提示词 | 你写的场景描述、镜头指令、风格约束 | — |
| 🖼️ 参考图片 | 角色设定图、情绪板、产品照片、分镜画面 | 最多 9张 |
| 🎬 参考视频 | 镜头运动参考、动作编排参考、节奏参考 | 最多 3段 |
| 🔊 音频轨道 | 旁白配音、背景音乐、音效 | 最多 3条 |
也就是说,你最多可以同时喂给它 12个参考文件 + 文本提示词。
而它的输出也不是简单的”画面”。Seedance 2.0 采用的是双分支扩散Transformer架构,能在一次推理过程中同步生成视频和音频——不是先做视频再贴音频,不是两条流水线拼接在一起,而是一次性、同步地产出:
- 视频画面(最长15秒,最高1080p)
- 双声道立体声音频
- 支持8种以上语言(中文、英文、日语、韩语、西班牙语、法语、德语、葡萄牙语等)的口型同步语音
- 背景音乐与拟音效果
💡 核心认知: 如果你只在提示词框里打一行字就点生成,你付的钱和那些上传了角色参考图、运动参考视频、背景音乐的人一模一样——但你只用了15%的能力。这篇教程要做的,就是帮你把剩下的85%全部解锁。
第二章:5层提示词架构(The 5-Layer Prompt Stack)—— 核心中的核心
这是整篇教程最重要的部分。
火山引擎的官方文档给出了一个6要素公式,但经过社区大量的实测验证,5层结构的表现一致性优于更长、更松散的提示词。
这个架构是:
顺序非常重要,不能随意调换。 原因如下:
| 层级 | 位置 | 为什么必须在这个位置 |
|---|---|---|
| 主体 | 第1位 | 给模型一个”重心锚点”,防止注意力被分散到多个竞争元素上 |
| 动作 | 第2位 | 提供”运动锚点”——即使画面其他部分发生偏移,这个动作必须被执行 |
| 镜头 | 第3位 | 在模型开始渲染前锁定取景框架,防止它每隔几秒自动重新选择镜头 |
| 风格 | 第4位 | 在运动和框架确定后叠加视觉风味,不会喧宾夺主地劫持运动 |
| 约束 | 第5位 | 作为最终的”护栏”,堵住前四层可能遗留的漏洞 |
下面我们逐层拆解。
第1层:主体(Subject)—— 你描述得越具体,模型”脑补”得越少
这一层的核心原则只有一个:你提供的每一个身份细节,都是模型不需要去”猜”的一个细节。
当你写”一个女人”时,模型必须自己决定:多大年纪?什么发型?什么发色?穿什么衣服?什么表情?什么肤色?什么体型?这些全部由模型从训练数据里”取平均值”来补全——而平均值的结果,永远是泛泛的、没有辨识度的。
来看三个层级的对比:
❌ 差:
a woman(一个女人)⚠️ 好一些:
a young woman with brown hair(一个棕色头发的年轻女性)✅ 最佳:
a woman in her late 20s, tight dark curls at ear length, small silver hoop in left ear, wearing a fitted black turtleneck, neutral expression
(一位20多岁的女性,耳朵长度的紧密深色卷发,左耳戴一个小银色圆环耳环,穿着修身黑色高领毛衣,表情平淡)
发长、服装质感、姿态、配饰、皮肤细节——每一个你没写的,都会在视频的15秒内发生漂移和变形。
⚠️ 关于多角色的重要提醒:
- 1个主体:最安全,成功率最高
- 2个角色:可行,但必须在空间上分开描述,并用
@Character_A和@Character_B分别标记
- 3个及以上:成功率急剧下降,不推荐
第2层:动作(Action)—— 90%的提示词在这里崩塌
这是绝大多数人写提示词时犯错最严重的一层。
问题的根源在于:人们写的是”状态”,而不是”动作方向”。
❌ 差(状态描写):
she looks happy and is enjoying the sunset
(她看起来很开心,正在享受日落)✅ 好(动作指令):
she slowly turns toward the camera, breeze lifting the hem of her skirt, eyes narrowing against the light
(她缓慢转向镜头,微风掀起她裙子的下摆,眼睛因光线微眯)
前者给了模型一张”照片”让它去模拟,后者给了模型一个“动作序列”让它去执行。两者的质量差距是巨大的。
🔴 几乎没人遵守但极其关键的规则:
永远把”主体运动”和”镜头运动”分开写,绝对不要混在一起。
❌ 错误示范:
spinning camera around a dancing person(镜头围绕一个跳舞的人旋转)模型分不清:到底是谁在转?是镜头转?还是人在转?两个都转?
✅ 正确示范:
the dancer spins slowly, camera holds fixed framing(舞者缓慢旋转,镜头保持固定框架)两条清晰的指令,歧义归零。
这条规则一旦违反,你会得到那种晃得让人头晕的、混乱的输出——而你可能还在怪模型”不够好”。
第3层:镜头(Camera)—— Seedance的王牌能力
Seedance 2.0 将镜头指令作为一级条件信号处理,这是它与市面上其他模型拉开差距的核心所在。
核心原则:
- 每次生成只用一个主要的镜头运动
- 用描述性的节奏词(slow、smooth、gentle)代替技术参数
- 官方文档明确不建议使用光圈值(f-stop)、ISO数值、精确焦距毫米数,因为模型对描述性语言的响应远好于摄影元数据
以下是经过验证的完整镜头关键词库,建议收藏备查:
📷 静态镜头关键词
| 关键词 | 效果 |
|---|---|
fixed / locked-off | 零镜头运动 |
static wide | 宽画幅固定不动的建立镜头 |
locked tripod, zero camera shake | 当画面出现环境抖动时使用 |
🎥 运动镜头关键词(重点)
| 关键词 | 效果 | 适用场景 |
|---|---|---|
push-in / dolly in | 镜头向主体推进 | 制造紧张感、强调情绪、情感特写 |
pull-out / dolly out | 镜头远离主体 | 环境揭示、交代背景 |
pan left/right | 镜头原地水平旋转 | 扫视场景、跟随动作 |
tracking shot / follow | 镜头与主体同步移动 | 动作戏、跟拍 |
orbit / arc / 360 orbit | 镜头围绕主体旋转 | 产品展示、肖像、英雄时刻 |
aerial / drone shot | 高空俯瞰 | 风景、建立地理环境 |
handheld | 加入自然手持抖动 | 纪录片感、UGC真实感 |
crane up/down | 垂直升降 | 戏剧性的高度揭示 |
gimbal | 稳定器般的流畅运动 | 精致电影感(区别于手持) |
steadicam walk | 流畅的向前跟随运动 | 角色穿越空间时的跟拍 |
whip pan | 快速水平横扫 | 紧迫感、镜头转场 |
dolly zoom | 希区柯克眩晕效果(主体大小不变,背景扭曲) | 心理惊悚、关键情绪转折 |
rack focus | 焦点在前景和背景之间切换 | 引导观众注意力转移 |
⏱️ 速度修饰词
| 关键词 | 速度级别 | 说明 |
|---|---|---|
imperceptible / barely | 极慢 | 几乎察觉不到的运动 |
slow / gentle / gradual | 慢 | 最安全的起点,官方默认推荐 |
smooth / controlled | 中等 | 自然节奏 |
dynamic / swift | 快 | 高冲击力,需极其谨慎使用 |
🔴 最危险的关键词警告:
fast(快)是 Seedance 提示词中最危险的单词。
当你写 fast camera + fast subject + busy scene(快速镜头 + 快速主体 + 复杂场景)时,模型会同时加速所有元素,几乎必然产生抖动和压缩失真。
修复方法:只让一个元素快,其余一切保持稳定。
复合镜头运动的正确写法:
如果你想在一个镜头里组合两种运动,用时间序列来写,而不是堆叠在同一个句子里:
❌ 错误:
slow dolly-in with gentle pan right(推进同时右摇)
→ 两个指令在同一个子句中打架✅ 正确:
start: slow dolly-in, then: gentle pan right for the final 2 seconds(开始:慢推进,然后:最后2秒温和右摇)
→ 模型获得两个清晰的时间阶段
第4层:风格(Style)—— 灯光描述是投入产出比最高的单一要素
这一层包含灯光、调色、影片参考、氛围。
而在所有风格要素中,灯光描述对视频质量的提升效果最大——这不是我说的,这是火山引擎官方指南的结论。它的影响力超过风格形容词、超过质量修饰词、超过分辨率请求。
如果你只能在一个薄弱的提示词里加一样东西,加灯光描述。
💡 灯光关键词库
| 关键词 | 效果 | 说明 |
|---|---|---|
golden hour | 黄金时段光线 | 单词投入产出比最高的灯光词 |
rim light / dramatic rim light against dark background | 轮廓光/边缘光 | 电影级的人物与背景分离 |
soft key from 45 degrees | 45度柔和主光 | 讨喜的谈话类打光 |
overcast daylight / even overcast diffused light | 阴天漫射光 | 消除明亮场景中的闪烁 |
backlit silhouette at sunset | 背光剪影 | 戏剧性氛围 |
motivated lighting from practical source | 由画面内光源驱动的照明 | 真实感,光源可见 |
volumetric fog | 体积雾 | 增加大气层次感,与背光搭配绝佳 |
chiaroscuro | 明暗对比法 | 《教父》式的高对比度光影 |
🎨 调色关键词库
| 关键词 | 视觉效果 |
|---|---|
teal and orange | 经典好莱坞色调 |
bleach bypass | 低饱和、粗粝、高对比度质感 |
warm tone / amber-tinted | 温暖怀旧感 |
crushed blacks | 深沉的电影级暗部损失 |
pastel | 柔和色调,适合动漫或时尚风 |
🎬 影片参考风格锚定词
| 关键词 | 效果 |
|---|---|
cinematic film tone, 35mm | 最可靠的万能风格锚 |
16mm film, handheld camera | 粗粝独立电影质感 |
anamorphic lens flare | 变形宽银幕电影感 |
national geographic quality | 自然纪录片品质 |
documentary-style handheld framing | 观察式纪实风 |
🔴 两个关键陷阱:
陷阱一: 单独使用 cinematic(电影感)不会产生任何可预测的结果——官方文档直接称其”过于模糊”。
❌
cinematic(模型:随便你)
✅cinematic film tone, 35mm, warm golden lighting(三个交叉约束,明确指向)
陷阱二: glow(辉光)、glimmer(闪烁)、glints(闪光点)这类词会引入镜面闪烁伪影——画面会出现忽明忽暗的频闪。
❌
soft glow on the face
✅steady intensity或diffuse(稳定强度/漫射)
第5层:约束(Constraints)—— 把”AI视频”变成”视频”的最后一道防线
约束层不产生美感,但它消除AI感。这一层是区分”一看就是AI做的”和”看不出是AI做的”之间的关键。
角色类提示词必加的约束:
| 约束关键词 | 作用 |
|---|---|
avoid jitter | 防止画面抖动 |
avoid bent limbs | 防止肢体扭曲变形 —— 每个含角色的提示词都必须加,无一例外 |
avoid identity drift | 防止角色外貌在镜头间发生漂移变化 |
avoid temporal flicker | 防止帧间亮度闪烁 |
no distortion, no stretching | 保持几何稳定性 |
maintain face consistency | 在多个镜头间保持面部一致性 |
万能质量后缀(建议每次生成都附加):
看起来不怎么优雅,但实测效果显著。
💡 技术细节: 模型对正面约束表述的理解比负面提示语法更可靠。也就是说,
avoid X(避免X)和maintain Y(保持Y)的效果优于单纯地罗列不想要的东西。
第三章:提示词黑名单 —— 这些词看起来有用,实际上在毁掉你的画面
这份清单非常重要。以下这些词在直觉上感觉”应该加”,但它们每一个都有明确的负面效果:
| 问题词 | 为什么有害 | 替代方案 |
|---|---|---|
fast(快,不加限定) | 模型同时加速所有元素 → 全画面抖动 | 指定哪一个元素快,其余保持稳定 |
cinematic(单独使用) | 没有任何可视化锚点,模型随机发挥 | 搭配质感词+灯光词+影片参考 |
epic(史诗) | 对扩散模型没有视觉含义 | 用具体的构图和光影描述来传达宏大感 |
amazing / beautiful / stunning | 这些是感受,不是指令,模型无法渲染一个形容词 | 用具体的视觉元素描述 |
lots of movement(大量运动) | 触发全画面抖动 | 指定一个具体的运动 |
glow / glimmer / glints | 引入镜面闪烁伪影 | steady intensity / diffuse |
🔑 底层原则:如果一个词描述的是”观众应该怎样感受”,而不是”摄影机应该看到什么”,那模型就只能猜测什么样的画面能产生这种感受——而它猜错的概率极高。
第四章:时间码多镜头编排 —— 在15秒内”导演”多个镜头
这是 Seedance 2.0 真正区别于其他所有模型的能力之一:你可以在单次15秒的生成中,用时间戳指定不同的镜头段落。
这等于把你从”写一句话等结果”的用户,升级为逐镜头编排的导演。
两种有效的时间码格式:
格式A:方括号范围式
格式B:圆括号秒数式
时间码编排的关键要点:
- 每个镜头段落都应指定三样东西: 镜头位置、主体动作、光照状态
- 在镜头之间使用转场语言: 比如
hard cut to(硬切至)、seamless morph into(无缝变形至),给模型明确的剪切指令,而不是让它自由发挥 - 不要在同一个时间段内塞入太多指令
万能的”15秒高潮弧线”模板:
这是电影制作中最经典的渐进式叙事结构,直接映射到15秒的生成窗口中:
由远到近,层层递进 —— 影视制作中最通用的升级模式。
第五章:@ 引用系统 —— 从”打字用户”到”片场导演”的关键一跃
那些产出完全不像AI的人,他们共同在做的一件事是:上传6到12个参考文件,并在提示词中用 @ 为每一个文件分配明确的角色。
语法格式:
翻译成中文:
🔴 核心规则:
每一个上传的文件都必须在提示词中有明确的 @ 标签和角色说明。
一个没有 @ 标签的上传图片,模型会模糊地处理它——而在扩散模型中,模糊 = 取平均值 = 视觉上的”糊”。
💡 最被低估的技巧:首尾帧插值
这是整个 @ 引用系统中最被低估的快捷方式:
- 上传你期望的第一帧作为
@Image1 - 上传你期望的最后一帧作为
@Image2 - 在提示词中描述二者之间发生了什么
Seedance 会自动在两个端点之间插值出连贯的运动过程——不需要分镜、不需要多步流水线。
第六章:5个即用型提示词模板(从入门到专业)
以下5个模板,难度逐级递增,你可以直接复制使用,也可以作为自己创作的起点。
模板1:口播/种草类(UGC风格)
拆解: 主体描写清晰 → 动作明确(举起产品、展示质感、靠近镜头微笑)→ 手持手机风格 → UGC风格锚定 → 光照强调”自然光,无滤镜,无环形灯”。
模板2:产品广告(高端商业)
拆解: 时间码四段式结构 → 微距开场→中景展示→慢动作细节→主画面收尾 → 约束层兜底。
模板3:电影叙事场景
拆解: 五层架构完美示范——主体(40多岁、面部沧桑的男人)→ 动作(雕刻胡桃木)→ 镜头(中景慢推至手部特写)→ 风格(35mm、黄金时段、浅景深、大地色调)→ 约束(避免抖动、避免肢体变形、画面稳定、无闪烁)。
模板4:动作戏(时间码编排)
拆解: 经典的 远景→中景→低角度→远景 四段式,每段都有明确的镜头类型、运动和光照描述。注意最后一段用 rim light separating figure from mist 创造人物从雾气中分离的视觉层次。
模板5:完整多模态制作
拆解: 这是 Seedance 2.0 的”满配”用法——4个参考文件各就各位,每个都有明确的 @ 角色分配。文本提示词将所有参考文件串联成统一的叙事,约束层确保角色一致性和画面稳定性。
第七章:迭代法则 —— 对的方法比对的灵感重要
最后一个关键认知,关于如何高效地优化你的提示词。
正确的迭代流程:
- 用你的提示词生成 2~3个基线版本
- 从中选出最好的一个
- 只改变一个变量(镜头、灯光、速度修饰词……只改一样)
- 再次生成,对比效果
- 保留更好的版本,继续改变下一个变量
🔴 绝大多数人的错误做法:
生成失败后,把整个提示词推翻重写——同时改了主体、镜头、风格、灯光。
结果?下一次如果依然失败,你完全无法定位是哪个改动导致了问题,因为每一次失败的原因都完全不同。
🔑 这就是A/B测试优于”全面重设计”的底层原理:单变量控制,每次循环看似更慢,但收敛速度远快于盲目重写。
一个实用小技巧:
如果你觉得画面运动太微弱、太平淡,可以在提示词开头加上 dynamic motion 或 vibrant energy。这两个词充当全局强度调节器,会放大你已经指定的运动,但不会引入新的运动类型。
总结:一张表回顾全部核心
| 层级 | 核心要义 | 最常见错误 |
|---|---|---|
| 主体 | 越具体,模型越不”脑补” | 描述太笼统,导致特征漂移 |
| 动作 | 写”方向”,不写”状态” | 写感受而非指令;主体运动和镜头运动混为一谈 |
| 镜头 | 一次只用一种主镜头运动 | 多种运动堆叠打架;滥用 fast |
| 风格 | 灯光描述是投入产出比之王 | 单独使用 cinematic;使用 glow 类闪烁词 |
| 约束 | 每个角色提示词必加 avoid bent limbs | 完全没有约束层 |
| 时间码 | 每段指定镜头+动作+光照 | 同一时间段塞太多指令 |
| @ 引用 | 每个文件必须有明确角色 | 上传文件但不在提示词中标记 |
| 迭代 | 每次只改一个变量 | 生成失败后全盘重写 |
记住这句话: Seedance 2.0 的能力天花板极高,而你的产出水平与天花板之间的差距,几乎完全取决于提示词架构。
这篇教程覆盖的5层架构、关键词库、约束系统和 @ 引用标签,就是你需要的完整工具箱。把它收藏起来,在每次生成时打开对照使用——当你需要查一个镜头关键词,或者需要排查为什么产出效果不对时,答案大概率就在上面某一节里。
别再对着提示词框写散文了。你是导演,不是旁白。
评论 (0)
留下你的看法 · 有价值的讨论会被置顶还没有评论,成为第一个评论者吧~