指南

万能提示词公式 — AI 视频导演的六个维度

大多数 AI 视频的不稳定输出源自提示词缺乏内在逻辑。万能提示词公式通过六个维度——主体、动作、画面边界、镜头、光影、时间节奏——在提示词元素之间建立逻辑联系，让模型精准识别生成重点。本指南涵盖核心框架、深夜街道完整示例，以及多人场景、精准镜头控制、定时互动与特写镜头的进阶应用。

最后更新: 2026-04-09最后核验: 2026-04-09

来源基础与阅读边界

这些指南按第三方参考站方式整理，用来解释公开信息与常见用法，不等同于官方产品文档或官方支持内容。

来源依据

ByteDance Seedance 2.0 项目页面(2026-04-09)
Dreamina 官方指南：如何使用 Seedance 2.0(2026-04-09)

为什么大多数 AI 视频提示词产生不稳定的输出

当提示词没有明确的优先级结构时，AI 模型会将注意力平均分配给每个元素——人物、物体、背景、镜头——并试图同时驱动它们。结果就是幻觉般的动作、漂移的镜头、变形的角色，以及毫无意图感的画面。万能提示词公式通过建立逻辑联系的层次结构来解决这个问题：一个绝对主体、一个核心动作、明确界定的次要元素、精准的镜头跟随逻辑、情绪驱动的光影，以及逐秒的时间规划。你不再是碰运气的指令输入者，而是像电影导演一样调度每个场景节拍的 AI 导演。

维度一 — 确定绝对主体

这是最重要的一步：确立画面的中心。在编写提示词时，要优先描述主体正在进行的动作或行为，让 AI 自动识别谁是主角，从而将生成重心放在其身上，并有余力去推演背景变化。例如一名女子在街道上的场景，写「一名女子在城市街道上向左行走」——这告诉 AI 女子是优先目标，它会自动以较低的运算权重处理背景行人和建筑。当模型知道谁是主角，它就有剩余的注意力去推断自然的背景行为，而非以同等精度渲染所有东西。

维度二 — 锚定核心动作

视频的灵魂在于单一核心动作，而非随机动作的堆砌。确立一个核心动作后，所有辅助动作（细节小动作）都必须围绕核心展开，且不能与之冲突。如果核心动作是「向左走」，辅助微动作可以是「轻抚发丝」或「偶尔环顾四周」。避免同时添加不相关的核心动作如「弯腰捡东西」——这会迫使角色同时执行两个竞争性的主要动作，导致肢体变形。原则是每个镜头一个核心动作，搭配 1-3 个不冲突的微动作增添自然感。

维度三 — 界定画面边界（主客体逻辑）

画面中的每个次要元素都必须有明确的角色定位：背景客体或互动客体。背景客体需要弱化——「静止的建筑」、「缓慢移动的远处行人」——使其永远不与模型的注意力竞争。互动客体则需配合主体——「卖花小贩在女子经过时抬头看向她，动作幅度微小」。这套主客体逻辑可以防止 AI 把背景行人当作与主角同等重要的元素处理，而这正是群体场景中所有人做出相同动作的根本原因。

维度四 — 规划镜头调度

模糊的指令如「镜头拉近」或「电影感镜头」会导致虚拟摄影机漫无目的地漂移。必须建立镜头与主体之间的跟随逻辑，并使用精准的术语。跟拍镜头：「镜头与主体同速向左移动，焦距固定，始终将主体置于画面中心」。推镜头：「镜头从全身构图推至脸部特写，同时主体保持行走动作」。这些指令锁定了视觉焦点，让模型确切知道镜头该对准哪里以及移动速度。镜头存在的意义是服务主体——永远不要让它独立漫游。

维度五 — 设定光影色彩

光影色彩应该烘托场景的情绪逻辑并突出主体，而不仅仅是让画面看起来「漂亮」。所有视觉设定都要以主体为视觉中心。深夜孤独女子的场景：「暖黄色的路灯光从主体的侧后方打过来，在地面形成细长的影子；画面整体呈现低饱和度的冷蓝色调」。这在视觉上将主体从背景中隔离出来。当光影在主体与环境之间创造出明确的对比时，模型会将渲染品质集中在被照亮的主体上，而将较暗的背景作为次要处理。

维度六 — 把控时间节奏

AI 视频的不稳定往往源于缺乏时间指令。将视频划分为清晰的时间阶段，进行逐秒规划。以 10 秒视频为例：1-3 秒——主体从右侧入镜，向左行走，手臂自然摆动；4-6 秒——主体走到画面中心，轻抚发丝，头部微侧；7-10 秒——主体继续向左行走至画面边缘，镜头以相同速度跟随直到结束。这种秒级别的状态规划告诉模型每个时刻该渲染什么，防止它自行发明随机动作或在最初两秒内就把整段剧情冲完。

完整示例 — 深夜街道的独行者

将六个维度整合为一段完整提示词：绝对主体与核心动作——一名女子在城市街道上向左行走，步伐匀速。辅助动作——女子一边行走，一边用手轻抚发丝，头部偶尔轻微侧转观察周围环境，脚步保持匀速。画面边界——背景中的街道建筑保持静止，远处有几名行人缓慢移动且不抢镜头；路边的一名卖花小贩在女子经过时抬头看向她，动作幅度微小。镜头调度——采用跟拍镜头（Follow Shot），镜头与女子同速向左移动，焦距固定，始终将女子置于画面中心。光影色彩——暖黄色的路灯光从女子的侧后方打过来，在地面形成细长的影子；画面整体呈现低饱和度的冷蓝色调，营造出安静落寞的氛围。时间节奏——1-3 秒：女子从画面右侧入镜，开始向左匀速走入，手部自然摆动；4-6 秒：女子走到画面中心，做出轻抚发丝的动作，头部微侧；7-10 秒：女子继续向左行走，逐渐走至画面左侧缘，镜头同步跟随直到画面结束。

为什么这个完整示例有效

四个机制使这段提示词有效。第一，避免干扰：通过明确主体是女子，AI 不会把注意力平分给背景行人，避免画面混乱。第二，防止变形：将「向左走」定为核心，其他如「抚头发」则是辅助，让 AI 知道动作的优先顺序，防止主体在做动作时产生肢体扭曲。第三，镜头稳定：精准的镜头指令（同速平移、保持中心）取代了模糊的「画面拉近」，能有效避免镜头乱飘。第四，消除随机性：通过秒级别的时间规划，你实际上是在担任「AI 导演」，告诉模型每个阶段该做什么，而不是让 AI 随机发挥。

进阶 — 多人场景

在群体场景中，AI 会将注意力平均分配给每个可见的人，导致所有人做出同样诡异的动作。解决方案是「强主体、弱背景、定层次」。首先，从群体中重新定义绝对主体：「一名穿红衣的女子（主体）走过拥挤的街头」。其次，使用平行主体动作区分群体：主体向左走，其他行人在路边花店挑选花朵。第三，将背景客体设为「缓慢移动、不抢主体镜头」，互动客体设为小幅度的服务主体动作如「小贩抬头看向主体」。第四，用跟拍镜头锁定主体，使其无论群众如何流动都保持居中。第五，使用秒级时间规划让不同角色在不同时刻行动——1-3 秒主体入场群体流动，4-6 秒主体做微动作同时互动角色回应，7-10 秒主体离场背景保持稳定演变。

进阶 — 防止镜头漂移

镜头漂移源于模型收到模糊的运动描述。两种精准指令模式可以解决。跟拍镜头：明确镜头与主体同速移动、焦距固定、主体始终居中——锁定镜头与主体之间的空间关系。推镜头：明确起始构图（全身）和终点构图（脸部特写），同时要求主体维持正在进行的动作——为模型提供从 A 到 B 的清晰轨迹。两种模式之所以有效，是因为它们定义了镜头与主体的关系，而非孤立地描述镜头。没有主体参照的镜头指令是漫无目的漂移的最主要原因。

进阶 — 定时角色互动

要让角色在特定时间戳进行互动，需结合秒级状态规划与互动客体逻辑。在特定的时间窗口中定义互动发生的时机：1-3 秒主体走向路边的卖花小贩；4-6 秒（互动点）主体走到小贩面前并停下，此时互动客体（小贩）抬头看向主体，并做出轻抬鲜花的动作；7-10 秒主体接过花后继续前行，小贩低头回到原位。在互动窗口内，同时描述主体的动作和互动客体的回应作为协调配对。将背景客体设为互动窗口期间静止或缓慢移动，使模型的全部注意力集中在互动交流上。

进阶 — 特写镜头适配

公式可通过从宏观场景调度缩小到微观细节雕刻来适配特写镜头。绝对主体变为身体局部：「女子面部的近景」。核心动作变为微表情：「缓慢眨眼，嘴角微微上扬」取代全身位移。画面边界需要极度弱化——「背景模糊（Bokeh）、单色调、完全静止」——将所有渲染资源强制投入主体面部细节。镜头使用固定特写（固定焦距对准面部）或极缓慢的推镜头从中景推至极近景。光影描述光线如何打在面部特定位置：「柔和的侧光照亮半边脸，另一半隐藏在阴影中，营造神秘感」。时间节奏控制表情弧线：1-3 秒保持平静表情、眼神低垂；4-6 秒缓慢抬头、眼神与镜头交会；7-10 秒嘴角露出一丝极微小的微笑，镜头微幅前推。

示例与来源

深夜街道独行者 — 完整六维度提示词

将所有六个维度应用于一个城市夜景场景的完整提示词。每一行对应公式的一个维度。

主体：一名女子在城市街道上向左行走，步伐匀速。
辅助动作：她用手轻抚发丝，偶尔侧头环顾四周，脚步保持均匀节奏。
场景：背景建筑保持静止。远处行人缓慢移动，不抢夺焦点。路边卖花小贩在主体经过时抬头看向她（动作幅度微小）。
镜头：跟拍镜头——镜头与主体同速向左移动，焦距固定，主体始终居中。
光影：暖黄色路灯从侧后方打过来，形成细长阴影。整体场景为低饱和度冷蓝色调。安静落寞的氛围。
时间节奏：
  1-3秒：主体从右侧入镜，向左行走，手臂自然摆动。
  4-6秒：主体走到中心，轻抚发丝，头部微侧。
  7-10秒：主体继续向左走至边缘，镜头跟随至结束。

拥挤街道 — 多人场景层次提示词

展示如何通过建立明确的主体层次和差异化动作来处理多角色场景。

主体：一名穿红裙的女子（绝对主体）在拥挤的街道上向左行走。
平行动作：其他行人在路边摊位挑选花朵。
场景：远处人群缓慢移动，不抢夺镜头焦点。卖花小贩（互动客体）在主体经过时抬头看向她——动作幅度微小。
镜头：跟拍镜头锁定主体，同速移动，焦距固定，主体始终居中。
光影：主体从侧后方打光，背景光线弱化。
时间节奏：
  1-3秒：主体从右侧入镜，人群开始流动。
  4-6秒：主体做出微动作，小贩以一个眼神回应。
  7-10秒：主体向左离场，背景保持稳定演变。

特写表情弧线 — 微动作提示词

将公式适配为极近景特写，以面部微表情取代身体动作。

主体：女子面部近景。
核心微表情：缓慢眨眼，然后嘴角微微上扬露出淡淡微笑。
辅助细节：眼眶微红，睫毛轻微颤动。
场景：背景完全模糊（Bokeh），单一暖色调，完全静止。
镜头：固定特写，焦距对准面部。最后阶段轻微前推。
光影：柔和侧光照亮左半边脸；右半边隐入柔和阴影。神秘内省的氛围。
时间节奏：
  1-3秒：平静表情，眼神低垂。
  4-6秒：缓慢抬头，眼神与镜头交会。
  7-10秒：最微小的微笑浮现，镜头微幅前推。

常见问题

如何防止多人场景中所有角色做出相同动作？

宣告一个具有特定动作的绝对主体，然后为其他群体分配不同的平行动作。不要写「一群人在走路」，而要写「一名穿红裙的女子向左走（主体）；其他行人在路边花店挑选花朵」。模型会以主体为主要渲染目标，并将剩余注意力分配给背景角色，自然产生变化。加入秒级时间规划让不同角色在不同时间窗口行动。

这个公式和 Shot Design 工作流有什么区别？

Shot Design 工作流是一个五步骤的制作流程（需求分析→视觉诊断→六元素组装→验证→交付），针对电影级专业输出进行优化。万能提示词公式则是提示词本身的概念框架——主体、动作、边界、镜头、光影、时间节奏的六个维度。可以把公式理解为「提示词里放什么」，Shot Design 则是「围绕构建和验证提示词的工作流」。它们是互补的：公式提供结构逻辑，Shot Design 提供制作纪律。

如何停止 AI 视频中的镜头漂移？

用精准的跟随逻辑取代模糊的描述（如「镜头拉近」、「电影感镜头」）。跟拍镜头必须指定：镜头与主体速度一致、焦距固定、主体始终居中。推镜头必须指定起始构图（如全身）和终点构图（如脸部特写），同时要求主体维持正在进行的动作。每个镜头指令都必须引用主体——没有主体锚点的镜头描述是漂移的首要原因。

超过 10 秒的视频可以使用逐秒时间规划吗？

可以，但超过 15 秒的视频应将秒级时间规划与多段分镜结合。将总时长拆分为每段最多 15 秒的片段，对每个片段独立应用六维度公式，并通过在每段结尾设置可衔接的静止状态（定格、缓慢淡出或持续动作）来确保段落间的连续性。配合段落边界，时间维度可扩展到任意长度。

这个公式适用于特写和微距镜头吗？

适用。将每个维度向内缩放：绝对主体变为身体局部（面部、手部、眼睛）；核心动作变为微表情（缓慢眨眼、淡淡微笑）；画面边界需要极度弱化背景（全模糊、单色、静止）；镜头使用固定特写或极缓慢的推镜头；光影描述光线如何打在特定部位；时间节奏逐秒控制表情弧线。相同的逻辑层次适用——只是物理尺度更小。