指南

萬能提示詞公式 — AI 視頻導演的六個維度

大多數 AI 視頻的不穩定輸出，源自提示詞缺乏內在邏輯。萬能提示詞公式通過六個維度——主體、動作、畫面邊界、鏡頭、光影、時間節奏——在提示詞元素之間建立邏輯聯繫，讓模型精準識別生成重點。本指南涵蓋核心框架、深夜街道完整範例，以及多人場景、精準鏡頭控制、定時互動與特寫鏡頭的進階應用。

最後更新: 2026-04-09最後核驗: 2026-04-09

來源基礎與閱讀邊界

這些指南按第三方參考站方式整理，用來解釋公開資訊與常見用法，不等同於官方產品文件或官方支援內容。

來源依據

ByteDance Seedance 2.0 專案頁面(2026-04-09)
Dreamina 官方指南：如何使用 Seedance 2.0(2026-04-09)

為什麼大多數 AI 視頻提示詞產生不穩定的輸出

當提示詞沒有明確的優先級結構時，AI 模型會將注意力平均分配給每個元素——人物、物體、背景、鏡頭——並試圖同時驅動它們。結果就是幻覺般的動作、漂移的鏡頭、變形的角色，以及毫無意圖感的畫面。萬能提示詞公式通過建立邏輯聯繫的層次結構來解決這個問題：一個絕對主體、一個核心動作、明確界定的次要元素、精準的鏡頭跟隨邏輯、情緒驅動的光影，以及逐秒的時間規劃。你不再是碰運氣的指令輸入者，而是像電影導演一樣調度每個場景節拍的 AI 導演。

維度一 — 確定絕對主體

這是最重要的一步：確立畫面的中心。在編寫提示詞時，要優先描述主體正在進行的動作或行為，讓 AI 自動識別誰是主角，從而將生成重心放在其身上，並有餘力去推演背景變化。例如一名女子在街道上的場景，寫「一名女子在城市街道上向左行走」——這告訴 AI 女子是優先目標，它會自動以較低的運算權重處理背景行人和建築。當模型知道誰是主角，它就有剩餘的注意力去推斷自然的背景行為，而非以同等精度渲染所有東西。

維度二 — 錨定核心動作

視頻的靈魂在於單一核心動作，而非隨機動作的堆砌。確立一個核心動作後，所有輔助動作（細節小動作）都必須圍繞核心展開，且不能與之衝突。如果核心動作是「向左走」，輔助微動作可以是「輕撫髮絲」或「偶爾環顧四周」。避免同時添加不相關的核心動作如「彎腰撿東西」——這會迫使角色同時執行兩個競爭性的主要動作，導致肢體變形。原則是每個鏡頭一個核心動作，搭配 1-3 個不衝突的微動作增添自然感。

維度三 — 界定畫面邊界（主客體邏輯）

畫面中的每個次要元素都必須有明確的角色定位：背景客體或互動客體。背景客體需要弱化——「靜止的建築」、「緩慢移動的遠處行人」——使其永遠不與模型的注意力競爭。互動客體則需配合主體——「賣花小販在女子經過時抬頭看向她，動作幅度微小」。這套主客體邏輯可以防止 AI 把背景行人當作與主角同等重要的元素處理，而這正是群體場景中所有人做出相同動作的根本原因。

維度四 — 規劃鏡頭調度

模糊的指令如「鏡頭拉近」或「電影感鏡頭」會導致虛擬攝影機漫無目的地漂移。必須建立鏡頭與主體之間的跟隨邏輯，並使用精準的術語。跟拍鏡頭：「鏡頭與主體同速向左移動，焦距固定，始終將主體置於畫面中心」。推鏡頭：「鏡頭從全身構圖推至臉部特寫，同時主體保持行走動作」。這些指令鎖定了視覺焦點，讓模型確切知道鏡頭該對準哪裡以及移動速度。鏡頭存在的意義是服務主體——永遠不要讓它獨立漫遊。

維度五 — 設定光影色彩

光影色彩應該烘托場景的情緒邏輯並突出主體，而不僅僅是讓畫面看起來「漂亮」。所有視覺設定都要以主體為視覺中心。深夜孤獨女子的場景：「暖黃色的路燈光從主體的側後方打過來，在地面形成細長的影子；畫面整體呈現低飽和度的冷藍色調」。這在視覺上將主體從背景中隔離出來。當光影在主體與環境之間創造出明確的對比時，模型會將渲染品質集中在被照亮的主體上，而將較暗的背景作為次要處理。

維度六 — 把控時間節奏

AI 視頻的不穩定往往源於缺乏時間指令。將視頻劃分為清晰的時間階段，進行逐秒規劃。以 10 秒視頻為例：1-3 秒——主體從右側入鏡，向左行走，手臂自然擺動；4-6 秒——主體走到畫面中心，輕撫髮絲，頭部微側；7-10 秒——主體繼續向左行走至畫面邊緣，鏡頭以相同速度跟隨直到結束。這種秒級別的狀態規劃告訴模型每個時刻該渲染什麼，防止它自行發明隨機動作或在最初兩秒內就把整段劇情衝完。

完整範例 — 深夜街道的獨行者

將六個維度整合為一段完整提示詞：絕對主體與核心動作——一名女子在城市街道上向左行走，步伐勻速。輔助動作——女子一邊行走，一邊用手輕撫髮絲，頭部偶爾輕微側轉觀察周圍環境，腳步保持勻速。畫面邊界——背景中的街道建築保持靜止，遠處有幾名行人緩慢移動且不搶鏡頭；路邊的一名賣花小販在女子經過時抬頭看向她，動作幅度微小。鏡頭調度——採用跟拍鏡頭（Follow Shot），鏡頭與女子同速向左移動，焦距固定，始終將女子置於畫面中心。光影色彩——暖黃色的路燈光從女子的側後方打過來，在地面形成細長的影子；畫面整體呈現低飽和度的冷藍色調，營造出安靜落寞的氛圍。時間節奏——1-3 秒：女子從畫面右側入鏡，開始向左勻速走入，手部自然擺動；4-6 秒：女子走到畫面中心，做出輕撫髮絲的動作，頭部微側；7-10 秒：女子繼續向左行走，逐漸走至畫面左側緣，鏡頭同步跟隨直到畫面結束。

為什麼這個完整範例有效

四個機制使這段提示詞有效。第一，避免干擾：透過明確主體是女子，AI 不會把注意力平分給背景行人，避免畫面混亂。第二，防止變形：將「向左走」定為核心，其他如「撫頭髮」則是輔助，讓 AI 知道動作的優先順序，防止主體在做動作時產生肢體扭曲。第三，鏡頭穩定：精準的鏡頭指令（同速平移、保持中心）取代了模糊的「畫面拉近」，能有效避免鏡頭亂飄。第四，消除隨機性：透過秒級別的時間規劃，你實際上是在擔任「AI 導演」，告訴模型每個階段該做什麼，而不是讓 AI 隨機發揮。

進階 — 多人場景

在群體場景中，AI 會將注意力平均分配給每個可見的人，導致所有人做出同樣詭異的動作。解決方案是「強主體、弱背景、定層次」。首先，從群體中重新定義絕對主體：「一名穿紅衣的女子（主體）走過擁擠的街頭」。其次，使用平行主體動作區分群體：主體向左走，其他行人在路邊花店挑選花朵。第三，將背景客體設為「緩慢移動、不搶主體鏡頭」，互動客體設為小幅度的服務主體動作如「小販抬頭看向主體」。第四，用跟拍鏡頭鎖定主體，使其無論群眾如何流動都保持居中。第五，使用秒級時間規劃讓不同角色在不同時刻行動——1-3 秒主體入場群體流動，4-6 秒主體做微動作同時互動角色回應，7-10 秒主體離場背景保持穩定演變。

進階 — 防止鏡頭漂移

鏡頭漂移源於模型收到模糊的運動描述。兩種精準指令模式可以解決。跟拍鏡頭：明確鏡頭與主體同速移動、焦距固定、主體始終居中——鎖定鏡頭與主體之間的空間關係。推鏡頭：明確起始構圖（全身）和終點構圖（臉部特寫），同時要求主體維持正在進行的動作——為模型提供從 A 到 B 的清晰軌跡。兩種模式之所以有效，是因為它們定義了鏡頭與主體的關係，而非孤立地描述鏡頭。沒有主體參照的鏡頭指令是漫無目的漂移的最主要原因。

進階 — 定時角色互動

要讓角色在特定時間戳進行互動，需結合秒級狀態規劃與互動客體邏輯。在特定的時間窗口中定義互動發生的時機：1-3 秒主體走向路邊的賣花小販；4-6 秒（互動點）主體走到小販面前並停下，此時互動客體（小販）抬頭看向主體，並做出輕抬鮮花的動作；7-10 秒主體接過花後繼續前行，小販低頭回到原位。在互動窗口內，同時描述主體的動作和互動客體的回應作為協調配對。將背景客體設為互動窗口期間靜止或緩慢移動，使模型的全部注意力集中在互動交流上。

進階 — 特寫鏡頭適配

公式可透過從宏觀場景調度縮小到微觀細節雕刻來適配特寫鏡頭。絕對主體變為身體局部：「女子面部的近景」。核心動作變為微表情：「緩慢眨眼，嘴角微微上揚」取代全身位移。畫面邊界需要極度弱化——「背景模糊（Bokeh）、單色調、完全靜止」——將所有渲染資源強制投入主體面部細節。鏡頭使用固定特寫（固定焦距對準面部）或極緩慢的推鏡頭從中景推至極近景。光影描述光線如何打在面部特定位置：「柔和的側光照亮半邊臉，另一半隱藏在陰影中，營造神祕感」。時間節奏控制表情弧線：1-3 秒保持平靜表情、眼神低垂；4-6 秒緩慢抬頭、眼神與鏡頭交會；7-10 秒嘴角露出一絲極微小的微笑，鏡頭微幅前推。

示例與來源

深夜街道獨行者 — 完整六維度提示詞

將所有六個維度應用於一個城市夜景場景的完整提示詞。每一行對應公式的一個維度。

主體：一名女子在城市街道上向左行走，步伐勻速。
輔助動作：她用手輕撫髮絲，偶爾側頭環顧四周，腳步保持均勻節奏。
場景：背景建築保持靜止。遠處行人緩慢移動，不搶奪焦點。路邊賣花小販在主體經過時抬頭看向她（動作幅度微小）。
鏡頭：跟拍鏡頭——鏡頭與主體同速向左移動，焦距固定，主體始終居中。
光影：暖黃色路燈從側後方打過來，形成細長陰影。整體場景為低飽和度冷藍色調。安靜落寞的氛圍。
時間節奏：
  1-3秒：主體從右側入鏡，向左行走，手臂自然擺動。
  4-6秒：主體走到中心，輕撫髮絲，頭部微側。
  7-10秒：主體繼續向左走至邊緣，鏡頭跟隨至結束。

擁擠街道 — 多人場景層次提示詞

展示如何通過建立明確的主體層次和差異化動作來處理多角色場景。

主體：一名穿紅裙的女子（絕對主體）在擁擠的街道上向左行走。
平行動作：其他行人在路邊攤位挑選花朵。
場景：遠處人群緩慢移動，不搶奪鏡頭焦點。賣花小販（互動客體）在主體經過時抬頭看向她——動作幅度微小。
鏡頭：跟拍鏡頭鎖定主體，同速移動，焦距固定，主體始終居中。
光影：主體從側後方打光，背景光線弱化。
時間節奏：
  1-3秒：主體從右側入鏡，人群開始流動。
  4-6秒：主體做出微動作，小販以一個眼神回應。
  7-10秒：主體向左離場，背景保持穩定演變。

特寫表情弧線 — 微動作提示詞

將公式適配為極近景特寫，以面部微表情取代身體動作。

主體：女子面部近景。
核心微表情：緩慢眨眼，然後嘴角微微上揚露出淡淡微笑。
輔助細節：眼眶微紅，睫毛輕微顫動。
場景：背景完全模糊（Bokeh），單一暖色調，完全靜止。
鏡頭：固定特寫，焦距對準面部。最後階段輕微前推。
光影：柔和側光照亮左半邊臉；右半邊隱入柔和陰影。神祕內省的氛圍。
時間節奏：
  1-3秒：平靜表情，眼神低垂。
  4-6秒：緩慢抬頭，眼神與鏡頭交會。
  7-10秒：最微小的微笑浮現，鏡頭微幅前推。

常見問題

如何防止多人場景中所有角色做出相同動作？

宣告一個具有特定動作的絕對主體，然後為其他群體分配不同的平行動作。不要寫「一群人在走路」，而要寫「一名穿紅裙的女子向左走（主體）；其他行人在路邊花店挑選花朵」。模型會以主體為主要渲染目標，並將剩餘注意力分配給背景角色，自然產生變化。加入秒級時間規劃讓不同角色在不同時間窗口行動。

這個公式和 Shot Design 工作流有什麼區別？

Shot Design 工作流是一個五步驟的製作流程（需求分析→視覺診斷→六元素組裝→驗證→交付），針對電影級專業輸出進行優化。萬能提示詞公式則是提示詞本身的概念框架——主體、動作、邊界、鏡頭、光影、時間節奏的六個維度。可以把公式理解為「提示詞裡放什麼」，Shot Design 則是「圍繞建構和驗證提示詞的工作流」。它們是互補的：公式提供結構邏輯，Shot Design 提供製作紀律。

如何停止 AI 視頻中的鏡頭漂移？

用精準的跟隨邏輯取代模糊的描述（如「鏡頭拉近」、「電影感鏡頭」）。跟拍鏡頭必須指定：鏡頭與主體速度一致、焦距固定、主體始終居中。推鏡頭必須指定起始構圖（如全身）和終點構圖（如臉部特寫），同時要求主體維持正在進行的動作。每個鏡頭指令都必須引用主體——沒有主體錨點的鏡頭描述是漂移的首要原因。

超過 10 秒的視頻可以使用逐秒時間規劃嗎？

可以，但超過 15 秒的視頻應將秒級時間規劃與多段分鏡結合。將總時長拆分為每段最多 15 秒的片段，對每個片段獨立應用六維度公式，並通過在每段結尾設置可銜接的靜止狀態（定格、緩慢淡出或持續動作）來確保段落間的連續性。配合段落邊界，時間維度可擴展到任意長度。

這個公式適用於特寫和微距鏡頭嗎？

適用。將每個維度向內縮放：絕對主體變為身體局部（面部、手部、眼睛）；核心動作變為微表情（緩慢眨眼、淡淡微笑）；畫面邊界需要極度弱化背景（全模糊、單色、靜止）；鏡頭使用固定特寫或極緩慢的推鏡頭；光影描述光線如何打在特定部位；時間節奏逐秒控制表情弧線。相同的邏輯層次適用——只是物理尺度更小。