Seedance2
探索 Elser.ai

指南

万能提示词公式 — AI 视频导演的六个维度

大多数 AI 视频的不稳定输出源自提示词缺乏内在逻辑。万能提示词公式通过六个维度——主体、动作、画面边界、镜头、光影、时间节奏——在提示词元素之间建立逻辑联系,让模型精准识别生成重点。本指南涵盖核心框架、深夜街道完整示例,以及多人场景、精准镜头控制、定时互动与特写镜头的进阶应用。

最后更新: 最后核验:

来源基础与阅读边界

这些指南按第三方参考站方式整理,用来解释公开信息与常见用法,不等同于官方产品文档或官方支持内容。

来源依据

为什么大多数 AI 视频提示词产生不稳定的输出

当提示词没有明确的优先级结构时,AI 模型会将注意力平均分配给每个元素——人物、物体、背景、镜头——并试图同时驱动它们。结果就是幻觉般的动作、漂移的镜头、变形的角色,以及毫无意图感的画面。万能提示词公式通过建立逻辑联系的层次结构来解决这个问题:一个绝对主体、一个核心动作、明确界定的次要元素、精准的镜头跟随逻辑、情绪驱动的光影,以及逐秒的时间规划。你不再是碰运气的指令输入者,而是像电影导演一样调度每个场景节拍的 AI 导演。

维度一 — 确定绝对主体

这是最重要的一步:确立画面的中心。在编写提示词时,要优先描述主体正在进行的动作或行为,让 AI 自动识别谁是主角,从而将生成重心放在其身上,并有余力去推演背景变化。例如一名女子在街道上的场景,写「一名女子在城市街道上向左行走」——这告诉 AI 女子是优先目标,它会自动以较低的运算权重处理背景行人和建筑。当模型知道谁是主角,它就有剩余的注意力去推断自然的背景行为,而非以同等精度渲染所有东西。

维度二 — 锚定核心动作

视频的灵魂在于单一核心动作,而非随机动作的堆砌。确立一个核心动作后,所有辅助动作(细节小动作)都必须围绕核心展开,且不能与之冲突。如果核心动作是「向左走」,辅助微动作可以是「轻抚发丝」或「偶尔环顾四周」。避免同时添加不相关的核心动作如「弯腰捡东西」——这会迫使角色同时执行两个竞争性的主要动作,导致肢体变形。原则是每个镜头一个核心动作,搭配 1-3 个不冲突的微动作增添自然感。

维度三 — 界定画面边界(主客体逻辑)

画面中的每个次要元素都必须有明确的角色定位:背景客体或互动客体。背景客体需要弱化——「静止的建筑」、「缓慢移动的远处行人」——使其永远不与模型的注意力竞争。互动客体则需配合主体——「卖花小贩在女子经过时抬头看向她,动作幅度微小」。这套主客体逻辑可以防止 AI 把背景行人当作与主角同等重要的元素处理,而这正是群体场景中所有人做出相同动作的根本原因。

维度四 — 规划镜头调度

模糊的指令如「镜头拉近」或「电影感镜头」会导致虚拟摄影机漫无目的地漂移。必须建立镜头与主体之间的跟随逻辑,并使用精准的术语。跟拍镜头:「镜头与主体同速向左移动,焦距固定,始终将主体置于画面中心」。推镜头:「镜头从全身构图推至脸部特写,同时主体保持行走动作」。这些指令锁定了视觉焦点,让模型确切知道镜头该对准哪里以及移动速度。镜头存在的意义是服务主体——永远不要让它独立漫游。

维度五 — 设定光影色彩

光影色彩应该烘托场景的情绪逻辑并突出主体,而不仅仅是让画面看起来「漂亮」。所有视觉设定都要以主体为视觉中心。深夜孤独女子的场景:「暖黄色的路灯光从主体的侧后方打过来,在地面形成细长的影子;画面整体呈现低饱和度的冷蓝色调」。这在视觉上将主体从背景中隔离出来。当光影在主体与环境之间创造出明确的对比时,模型会将渲染品质集中在被照亮的主体上,而将较暗的背景作为次要处理。

维度六 — 把控时间节奏

AI 视频的不稳定往往源于缺乏时间指令。将视频划分为清晰的时间阶段,进行逐秒规划。以 10 秒视频为例:1-3 秒——主体从右侧入镜,向左行走,手臂自然摆动;4-6 秒——主体走到画面中心,轻抚发丝,头部微侧;7-10 秒——主体继续向左行走至画面边缘,镜头以相同速度跟随直到结束。这种秒级别的状态规划告诉模型每个时刻该渲染什么,防止它自行发明随机动作或在最初两秒内就把整段剧情冲完。

完整示例 — 深夜街道的独行者

将六个维度整合为一段完整提示词:绝对主体与核心动作——一名女子在城市街道上向左行走,步伐匀速。辅助动作——女子一边行走,一边用手轻抚发丝,头部偶尔轻微侧转观察周围环境,脚步保持匀速。画面边界——背景中的街道建筑保持静止,远处有几名行人缓慢移动且不抢镜头;路边的一名卖花小贩在女子经过时抬头看向她,动作幅度微小。镜头调度——采用跟拍镜头(Follow Shot),镜头与女子同速向左移动,焦距固定,始终将女子置于画面中心。光影色彩——暖黄色的路灯光从女子的侧后方打过来,在地面形成细长的影子;画面整体呈现低饱和度的冷蓝色调,营造出安静落寞的氛围。时间节奏——1-3 秒:女子从画面右侧入镜,开始向左匀速走入,手部自然摆动;4-6 秒:女子走到画面中心,做出轻抚发丝的动作,头部微侧;7-10 秒:女子继续向左行走,逐渐走至画面左侧缘,镜头同步跟随直到画面结束。

为什么这个完整示例有效

四个机制使这段提示词有效。第一,避免干扰:通过明确主体是女子,AI 不会把注意力平分给背景行人,避免画面混乱。第二,防止变形:将「向左走」定为核心,其他如「抚头发」则是辅助,让 AI 知道动作的优先顺序,防止主体在做动作时产生肢体扭曲。第三,镜头稳定:精准的镜头指令(同速平移、保持中心)取代了模糊的「画面拉近」,能有效避免镜头乱飘。第四,消除随机性:通过秒级别的时间规划,你实际上是在担任「AI 导演」,告诉模型每个阶段该做什么,而不是让 AI 随机发挥。

进阶 — 多人场景

在群体场景中,AI 会将注意力平均分配给每个可见的人,导致所有人做出同样诡异的动作。解决方案是「强主体、弱背景、定层次」。首先,从群体中重新定义绝对主体:「一名穿红衣的女子(主体)走过拥挤的街头」。其次,使用平行主体动作区分群体:主体向左走,其他行人在路边花店挑选花朵。第三,将背景客体设为「缓慢移动、不抢主体镜头」,互动客体设为小幅度的服务主体动作如「小贩抬头看向主体」。第四,用跟拍镜头锁定主体,使其无论群众如何流动都保持居中。第五,使用秒级时间规划让不同角色在不同时刻行动——1-3 秒主体入场群体流动,4-6 秒主体做微动作同时互动角色回应,7-10 秒主体离场背景保持稳定演变。

进阶 — 防止镜头漂移

镜头漂移源于模型收到模糊的运动描述。两种精准指令模式可以解决。跟拍镜头:明确镜头与主体同速移动、焦距固定、主体始终居中——锁定镜头与主体之间的空间关系。推镜头:明确起始构图(全身)和终点构图(脸部特写),同时要求主体维持正在进行的动作——为模型提供从 A 到 B 的清晰轨迹。两种模式之所以有效,是因为它们定义了镜头与主体的关系,而非孤立地描述镜头。没有主体参照的镜头指令是漫无目的漂移的最主要原因。

进阶 — 定时角色互动

要让角色在特定时间戳进行互动,需结合秒级状态规划与互动客体逻辑。在特定的时间窗口中定义互动发生的时机:1-3 秒主体走向路边的卖花小贩;4-6 秒(互动点)主体走到小贩面前并停下,此时互动客体(小贩)抬头看向主体,并做出轻抬鲜花的动作;7-10 秒主体接过花后继续前行,小贩低头回到原位。在互动窗口内,同时描述主体的动作和互动客体的回应作为协调配对。将背景客体设为互动窗口期间静止或缓慢移动,使模型的全部注意力集中在互动交流上。

进阶 — 特写镜头适配

公式可通过从宏观场景调度缩小到微观细节雕刻来适配特写镜头。绝对主体变为身体局部:「女子面部的近景」。核心动作变为微表情:「缓慢眨眼,嘴角微微上扬」取代全身位移。画面边界需要极度弱化——「背景模糊(Bokeh)、单色调、完全静止」——将所有渲染资源强制投入主体面部细节。镜头使用固定特写(固定焦距对准面部)或极缓慢的推镜头从中景推至极近景。光影描述光线如何打在面部特定位置:「柔和的侧光照亮半边脸,另一半隐藏在阴影中,营造神秘感」。时间节奏控制表情弧线:1-3 秒保持平静表情、眼神低垂;4-6 秒缓慢抬头、眼神与镜头交会;7-10 秒嘴角露出一丝极微小的微笑,镜头微幅前推。

示例与来源

深夜街道独行者 — 完整六维度提示词

将所有六个维度应用于一个城市夜景场景的完整提示词。每一行对应公式的一个维度。

主体:一名女子在城市街道上向左行走,步伐匀速。
辅助动作:她用手轻抚发丝,偶尔侧头环顾四周,脚步保持均匀节奏。
场景:背景建筑保持静止。远处行人缓慢移动,不抢夺焦点。路边卖花小贩在主体经过时抬头看向她(动作幅度微小)。
镜头:跟拍镜头——镜头与主体同速向左移动,焦距固定,主体始终居中。
光影:暖黄色路灯从侧后方打过来,形成细长阴影。整体场景为低饱和度冷蓝色调。安静落寞的氛围。
时间节奏:
  1-3秒:主体从右侧入镜,向左行走,手臂自然摆动。
  4-6秒:主体走到中心,轻抚发丝,头部微侧。
  7-10秒:主体继续向左走至边缘,镜头跟随至结束。

拥挤街道 — 多人场景层次提示词

展示如何通过建立明确的主体层次和差异化动作来处理多角色场景。

主体:一名穿红裙的女子(绝对主体)在拥挤的街道上向左行走。
平行动作:其他行人在路边摊位挑选花朵。
场景:远处人群缓慢移动,不抢夺镜头焦点。卖花小贩(互动客体)在主体经过时抬头看向她——动作幅度微小。
镜头:跟拍镜头锁定主体,同速移动,焦距固定,主体始终居中。
光影:主体从侧后方打光,背景光线弱化。
时间节奏:
  1-3秒:主体从右侧入镜,人群开始流动。
  4-6秒:主体做出微动作,小贩以一个眼神回应。
  7-10秒:主体向左离场,背景保持稳定演变。

特写表情弧线 — 微动作提示词

将公式适配为极近景特写,以面部微表情取代身体动作。

主体:女子面部近景。
核心微表情:缓慢眨眼,然后嘴角微微上扬露出淡淡微笑。
辅助细节:眼眶微红,睫毛轻微颤动。
场景:背景完全模糊(Bokeh),单一暖色调,完全静止。
镜头:固定特写,焦距对准面部。最后阶段轻微前推。
光影:柔和侧光照亮左半边脸;右半边隐入柔和阴影。神秘内省的氛围。
时间节奏:
  1-3秒:平静表情,眼神低垂。
  4-6秒:缓慢抬头,眼神与镜头交会。
  7-10秒:最微小的微笑浮现,镜头微幅前推。

常见问题

如何防止多人场景中所有角色做出相同动作?

宣告一个具有特定动作的绝对主体,然后为其他群体分配不同的平行动作。不要写「一群人在走路」,而要写「一名穿红裙的女子向左走(主体);其他行人在路边花店挑选花朵」。模型会以主体为主要渲染目标,并将剩余注意力分配给背景角色,自然产生变化。加入秒级时间规划让不同角色在不同时间窗口行动。

这个公式和 Shot Design 工作流有什么区别?

Shot Design 工作流是一个五步骤的制作流程(需求分析→视觉诊断→六元素组装→验证→交付),针对电影级专业输出进行优化。万能提示词公式则是提示词本身的概念框架——主体、动作、边界、镜头、光影、时间节奏的六个维度。可以把公式理解为「提示词里放什么」,Shot Design 则是「围绕构建和验证提示词的工作流」。它们是互补的:公式提供结构逻辑,Shot Design 提供制作纪律。

如何停止 AI 视频中的镜头漂移?

用精准的跟随逻辑取代模糊的描述(如「镜头拉近」、「电影感镜头」)。跟拍镜头必须指定:镜头与主体速度一致、焦距固定、主体始终居中。推镜头必须指定起始构图(如全身)和终点构图(如脸部特写),同时要求主体维持正在进行的动作。每个镜头指令都必须引用主体——没有主体锚点的镜头描述是漂移的首要原因。

超过 10 秒的视频可以使用逐秒时间规划吗?

可以,但超过 15 秒的视频应将秒级时间规划与多段分镜结合。将总时长拆分为每段最多 15 秒的片段,对每个片段独立应用六维度公式,并通过在每段结尾设置可衔接的静止状态(定格、缓慢淡出或持续动作)来确保段落间的连续性。配合段落边界,时间维度可扩展到任意长度。

这个公式适用于特写和微距镜头吗?

适用。将每个维度向内缩放:绝对主体变为身体局部(面部、手部、眼睛);核心动作变为微表情(缓慢眨眼、淡淡微笑);画面边界需要极度弱化背景(全模糊、单色、静止);镜头使用固定特写或极缓慢的推镜头;光影描述光线如何打在特定部位;时间节奏逐秒控制表情弧线。相同的逻辑层次适用——只是物理尺度更小。

相关指南