Seedance2
探索 Elser.ai

指南

萬能提示詞公式 — AI 視頻導演的六個維度

大多數 AI 視頻的不穩定輸出,源自提示詞缺乏內在邏輯。萬能提示詞公式通過六個維度——主體、動作、畫面邊界、鏡頭、光影、時間節奏——在提示詞元素之間建立邏輯聯繫,讓模型精準識別生成重點。本指南涵蓋核心框架、深夜街道完整範例,以及多人場景、精準鏡頭控制、定時互動與特寫鏡頭的進階應用。

最後更新: 最後核驗:

來源基礎與閱讀邊界

這些指南按第三方參考站方式整理,用來解釋公開資訊與常見用法,不等同於官方產品文件或官方支援內容。

來源依據

為什麼大多數 AI 視頻提示詞產生不穩定的輸出

當提示詞沒有明確的優先級結構時,AI 模型會將注意力平均分配給每個元素——人物、物體、背景、鏡頭——並試圖同時驅動它們。結果就是幻覺般的動作、漂移的鏡頭、變形的角色,以及毫無意圖感的畫面。萬能提示詞公式通過建立邏輯聯繫的層次結構來解決這個問題:一個絕對主體、一個核心動作、明確界定的次要元素、精準的鏡頭跟隨邏輯、情緒驅動的光影,以及逐秒的時間規劃。你不再是碰運氣的指令輸入者,而是像電影導演一樣調度每個場景節拍的 AI 導演。

維度一 — 確定絕對主體

這是最重要的一步:確立畫面的中心。在編寫提示詞時,要優先描述主體正在進行的動作或行為,讓 AI 自動識別誰是主角,從而將生成重心放在其身上,並有餘力去推演背景變化。例如一名女子在街道上的場景,寫「一名女子在城市街道上向左行走」——這告訴 AI 女子是優先目標,它會自動以較低的運算權重處理背景行人和建築。當模型知道誰是主角,它就有剩餘的注意力去推斷自然的背景行為,而非以同等精度渲染所有東西。

維度二 — 錨定核心動作

視頻的靈魂在於單一核心動作,而非隨機動作的堆砌。確立一個核心動作後,所有輔助動作(細節小動作)都必須圍繞核心展開,且不能與之衝突。如果核心動作是「向左走」,輔助微動作可以是「輕撫髮絲」或「偶爾環顧四周」。避免同時添加不相關的核心動作如「彎腰撿東西」——這會迫使角色同時執行兩個競爭性的主要動作,導致肢體變形。原則是每個鏡頭一個核心動作,搭配 1-3 個不衝突的微動作增添自然感。

維度三 — 界定畫面邊界(主客體邏輯)

畫面中的每個次要元素都必須有明確的角色定位:背景客體或互動客體。背景客體需要弱化——「靜止的建築」、「緩慢移動的遠處行人」——使其永遠不與模型的注意力競爭。互動客體則需配合主體——「賣花小販在女子經過時抬頭看向她,動作幅度微小」。這套主客體邏輯可以防止 AI 把背景行人當作與主角同等重要的元素處理,而這正是群體場景中所有人做出相同動作的根本原因。

維度四 — 規劃鏡頭調度

模糊的指令如「鏡頭拉近」或「電影感鏡頭」會導致虛擬攝影機漫無目的地漂移。必須建立鏡頭與主體之間的跟隨邏輯,並使用精準的術語。跟拍鏡頭:「鏡頭與主體同速向左移動,焦距固定,始終將主體置於畫面中心」。推鏡頭:「鏡頭從全身構圖推至臉部特寫,同時主體保持行走動作」。這些指令鎖定了視覺焦點,讓模型確切知道鏡頭該對準哪裡以及移動速度。鏡頭存在的意義是服務主體——永遠不要讓它獨立漫遊。

維度五 — 設定光影色彩

光影色彩應該烘托場景的情緒邏輯並突出主體,而不僅僅是讓畫面看起來「漂亮」。所有視覺設定都要以主體為視覺中心。深夜孤獨女子的場景:「暖黃色的路燈光從主體的側後方打過來,在地面形成細長的影子;畫面整體呈現低飽和度的冷藍色調」。這在視覺上將主體從背景中隔離出來。當光影在主體與環境之間創造出明確的對比時,模型會將渲染品質集中在被照亮的主體上,而將較暗的背景作為次要處理。

維度六 — 把控時間節奏

AI 視頻的不穩定往往源於缺乏時間指令。將視頻劃分為清晰的時間階段,進行逐秒規劃。以 10 秒視頻為例:1-3 秒——主體從右側入鏡,向左行走,手臂自然擺動;4-6 秒——主體走到畫面中心,輕撫髮絲,頭部微側;7-10 秒——主體繼續向左行走至畫面邊緣,鏡頭以相同速度跟隨直到結束。這種秒級別的狀態規劃告訴模型每個時刻該渲染什麼,防止它自行發明隨機動作或在最初兩秒內就把整段劇情衝完。

完整範例 — 深夜街道的獨行者

將六個維度整合為一段完整提示詞:絕對主體與核心動作——一名女子在城市街道上向左行走,步伐勻速。輔助動作——女子一邊行走,一邊用手輕撫髮絲,頭部偶爾輕微側轉觀察周圍環境,腳步保持勻速。畫面邊界——背景中的街道建築保持靜止,遠處有幾名行人緩慢移動且不搶鏡頭;路邊的一名賣花小販在女子經過時抬頭看向她,動作幅度微小。鏡頭調度——採用跟拍鏡頭(Follow Shot),鏡頭與女子同速向左移動,焦距固定,始終將女子置於畫面中心。光影色彩——暖黃色的路燈光從女子的側後方打過來,在地面形成細長的影子;畫面整體呈現低飽和度的冷藍色調,營造出安靜落寞的氛圍。時間節奏——1-3 秒:女子從畫面右側入鏡,開始向左勻速走入,手部自然擺動;4-6 秒:女子走到畫面中心,做出輕撫髮絲的動作,頭部微側;7-10 秒:女子繼續向左行走,逐漸走至畫面左側緣,鏡頭同步跟隨直到畫面結束。

為什麼這個完整範例有效

四個機制使這段提示詞有效。第一,避免干擾:透過明確主體是女子,AI 不會把注意力平分給背景行人,避免畫面混亂。第二,防止變形:將「向左走」定為核心,其他如「撫頭髮」則是輔助,讓 AI 知道動作的優先順序,防止主體在做動作時產生肢體扭曲。第三,鏡頭穩定:精準的鏡頭指令(同速平移、保持中心)取代了模糊的「畫面拉近」,能有效避免鏡頭亂飄。第四,消除隨機性:透過秒級別的時間規劃,你實際上是在擔任「AI 導演」,告訴模型每個階段該做什麼,而不是讓 AI 隨機發揮。

進階 — 多人場景

在群體場景中,AI 會將注意力平均分配給每個可見的人,導致所有人做出同樣詭異的動作。解決方案是「強主體、弱背景、定層次」。首先,從群體中重新定義絕對主體:「一名穿紅衣的女子(主體)走過擁擠的街頭」。其次,使用平行主體動作區分群體:主體向左走,其他行人在路邊花店挑選花朵。第三,將背景客體設為「緩慢移動、不搶主體鏡頭」,互動客體設為小幅度的服務主體動作如「小販抬頭看向主體」。第四,用跟拍鏡頭鎖定主體,使其無論群眾如何流動都保持居中。第五,使用秒級時間規劃讓不同角色在不同時刻行動——1-3 秒主體入場群體流動,4-6 秒主體做微動作同時互動角色回應,7-10 秒主體離場背景保持穩定演變。

進階 — 防止鏡頭漂移

鏡頭漂移源於模型收到模糊的運動描述。兩種精準指令模式可以解決。跟拍鏡頭:明確鏡頭與主體同速移動、焦距固定、主體始終居中——鎖定鏡頭與主體之間的空間關係。推鏡頭:明確起始構圖(全身)和終點構圖(臉部特寫),同時要求主體維持正在進行的動作——為模型提供從 A 到 B 的清晰軌跡。兩種模式之所以有效,是因為它們定義了鏡頭與主體的關係,而非孤立地描述鏡頭。沒有主體參照的鏡頭指令是漫無目的漂移的最主要原因。

進階 — 定時角色互動

要讓角色在特定時間戳進行互動,需結合秒級狀態規劃與互動客體邏輯。在特定的時間窗口中定義互動發生的時機:1-3 秒主體走向路邊的賣花小販;4-6 秒(互動點)主體走到小販面前並停下,此時互動客體(小販)抬頭看向主體,並做出輕抬鮮花的動作;7-10 秒主體接過花後繼續前行,小販低頭回到原位。在互動窗口內,同時描述主體的動作和互動客體的回應作為協調配對。將背景客體設為互動窗口期間靜止或緩慢移動,使模型的全部注意力集中在互動交流上。

進階 — 特寫鏡頭適配

公式可透過從宏觀場景調度縮小到微觀細節雕刻來適配特寫鏡頭。絕對主體變為身體局部:「女子面部的近景」。核心動作變為微表情:「緩慢眨眼,嘴角微微上揚」取代全身位移。畫面邊界需要極度弱化——「背景模糊(Bokeh)、單色調、完全靜止」——將所有渲染資源強制投入主體面部細節。鏡頭使用固定特寫(固定焦距對準面部)或極緩慢的推鏡頭從中景推至極近景。光影描述光線如何打在面部特定位置:「柔和的側光照亮半邊臉,另一半隱藏在陰影中,營造神祕感」。時間節奏控制表情弧線:1-3 秒保持平靜表情、眼神低垂;4-6 秒緩慢抬頭、眼神與鏡頭交會;7-10 秒嘴角露出一絲極微小的微笑,鏡頭微幅前推。

示例與來源

深夜街道獨行者 — 完整六維度提示詞

將所有六個維度應用於一個城市夜景場景的完整提示詞。每一行對應公式的一個維度。

主體:一名女子在城市街道上向左行走,步伐勻速。
輔助動作:她用手輕撫髮絲,偶爾側頭環顧四周,腳步保持均勻節奏。
場景:背景建築保持靜止。遠處行人緩慢移動,不搶奪焦點。路邊賣花小販在主體經過時抬頭看向她(動作幅度微小)。
鏡頭:跟拍鏡頭——鏡頭與主體同速向左移動,焦距固定,主體始終居中。
光影:暖黃色路燈從側後方打過來,形成細長陰影。整體場景為低飽和度冷藍色調。安靜落寞的氛圍。
時間節奏:
  1-3秒:主體從右側入鏡,向左行走,手臂自然擺動。
  4-6秒:主體走到中心,輕撫髮絲,頭部微側。
  7-10秒:主體繼續向左走至邊緣,鏡頭跟隨至結束。

擁擠街道 — 多人場景層次提示詞

展示如何通過建立明確的主體層次和差異化動作來處理多角色場景。

主體:一名穿紅裙的女子(絕對主體)在擁擠的街道上向左行走。
平行動作:其他行人在路邊攤位挑選花朵。
場景:遠處人群緩慢移動,不搶奪鏡頭焦點。賣花小販(互動客體)在主體經過時抬頭看向她——動作幅度微小。
鏡頭:跟拍鏡頭鎖定主體,同速移動,焦距固定,主體始終居中。
光影:主體從側後方打光,背景光線弱化。
時間節奏:
  1-3秒:主體從右側入鏡,人群開始流動。
  4-6秒:主體做出微動作,小販以一個眼神回應。
  7-10秒:主體向左離場,背景保持穩定演變。

特寫表情弧線 — 微動作提示詞

將公式適配為極近景特寫,以面部微表情取代身體動作。

主體:女子面部近景。
核心微表情:緩慢眨眼,然後嘴角微微上揚露出淡淡微笑。
輔助細節:眼眶微紅,睫毛輕微顫動。
場景:背景完全模糊(Bokeh),單一暖色調,完全靜止。
鏡頭:固定特寫,焦距對準面部。最後階段輕微前推。
光影:柔和側光照亮左半邊臉;右半邊隱入柔和陰影。神祕內省的氛圍。
時間節奏:
  1-3秒:平靜表情,眼神低垂。
  4-6秒:緩慢抬頭,眼神與鏡頭交會。
  7-10秒:最微小的微笑浮現,鏡頭微幅前推。

常見問題

如何防止多人場景中所有角色做出相同動作?

宣告一個具有特定動作的絕對主體,然後為其他群體分配不同的平行動作。不要寫「一群人在走路」,而要寫「一名穿紅裙的女子向左走(主體);其他行人在路邊花店挑選花朵」。模型會以主體為主要渲染目標,並將剩餘注意力分配給背景角色,自然產生變化。加入秒級時間規劃讓不同角色在不同時間窗口行動。

這個公式和 Shot Design 工作流有什麼區別?

Shot Design 工作流是一個五步驟的製作流程(需求分析→視覺診斷→六元素組裝→驗證→交付),針對電影級專業輸出進行優化。萬能提示詞公式則是提示詞本身的概念框架——主體、動作、邊界、鏡頭、光影、時間節奏的六個維度。可以把公式理解為「提示詞裡放什麼」,Shot Design 則是「圍繞建構和驗證提示詞的工作流」。它們是互補的:公式提供結構邏輯,Shot Design 提供製作紀律。

如何停止 AI 視頻中的鏡頭漂移?

用精準的跟隨邏輯取代模糊的描述(如「鏡頭拉近」、「電影感鏡頭」)。跟拍鏡頭必須指定:鏡頭與主體速度一致、焦距固定、主體始終居中。推鏡頭必須指定起始構圖(如全身)和終點構圖(如臉部特寫),同時要求主體維持正在進行的動作。每個鏡頭指令都必須引用主體——沒有主體錨點的鏡頭描述是漂移的首要原因。

超過 10 秒的視頻可以使用逐秒時間規劃嗎?

可以,但超過 15 秒的視頻應將秒級時間規劃與多段分鏡結合。將總時長拆分為每段最多 15 秒的片段,對每個片段獨立應用六維度公式,並通過在每段結尾設置可銜接的靜止狀態(定格、緩慢淡出或持續動作)來確保段落間的連續性。配合段落邊界,時間維度可擴展到任意長度。

這個公式適用於特寫和微距鏡頭嗎?

適用。將每個維度向內縮放:絕對主體變為身體局部(面部、手部、眼睛);核心動作變為微表情(緩慢眨眼、淡淡微笑);畫面邊界需要極度弱化背景(全模糊、單色、靜止);鏡頭使用固定特寫或極緩慢的推鏡頭;光影描述光線如何打在特定部位;時間節奏逐秒控制表情弧線。相同的邏輯層次適用——只是物理尺度更小。

相關指南