以語音與聲音引導的音訊驅動影片生成

Seedance 2.0 聲音設計與對話提示詞

Seedance 2.0 支援音訊感知生成，其中 @audio 參考與聲音設計提示詞會影響視覺輸出。本頁涵蓋對話唇型同步技法、語音音色引導、環境聲音設計，以及如何撰寫將視覺動作與音訊提示同步的提示詞，以實現更協調的成果。

每日更新狀態: 即將推出

最後更新: 2026-03-26

目前狀態

模板、範例與後續的媒體佐證應集中放在這裡，而不是繼續散落在寬泛的教學指南中。

媒體佐證

圖片佐證：即將補上

影片佐證：即將補上

對話唇型同步基礎

若要生成具有精確嘴型動作的說話角色，附加包含對話音軌的 @audio 參考，並在提示詞中描述角色的說話方式。指定嘴部動作強度、情緒基調和頭部手勢。模型利用音訊時序驅動唇型同步與臉部微表情。

透過提示詞引導語音音色

即使沒有 @audio 參考，你也可以透過在提示詞中描述聲音特質來影響隱含的語音角色：'whispering softly'、'shouting with urgency' 或 'speaking calmly with measured pauses'。這些描述會影響生成影片中的面部表情、肢體語言和嘴部動作模式。

環境聲音設計提示

在提示詞中描述聲音環境，以創造聽覺上協調的視覺效果。'Quiet library with occasional page turns' 產生的視覺氛圍與 'bustling market with shouting vendors' 截然不同。聲音設計提示引導模型朝向適當的人群密度、環境動態和氛圍效果。

視覺動作與音訊節拍的同步

對於音樂影片或節奏內容，使用 @audio 參考驅動視覺時序。描述哪些視覺事件應對齊音訊節拍：'character turns on the drum hit, camera cuts on the bass drop'。這能創造緊密的音視訊同步，呈現刻意編排的感覺。

多角色對話場景

對於兩個或更多角色之間的對話，將提示詞結構化為連續的說話輪次。標明哪個角色何時說話、每句台詞期間的情緒狀態，以及聆聽角色的反應。為每個角色附加各自的 @image 參考以維持身份，並附加一份完整對話音軌的 @audio 參考。

Input / Output 範例

帶音訊參考的角色獨白

生成與提供的對話音軌同步的特寫說話鏡頭。

@audio[monologue-track.wav] @image[character-anchor.png] Close-up of the character from reference, speaking directly to camera, emotional monologue delivery matching audio timing, subtle brow movements and eye glistening on emotional beats, warm studio lighting from above-left, shallow depth of field, natural lip synchronization with reference audio, gentle head tilts between phrases.

一個特寫獨白鏡頭，唇型精確同步音軌，具有自然的面部微表情，角色身份與參考圖一致。

Evidence: native-audio capability examples

環境聲音驅動的場景

創建一個咖啡廳場景，其中視覺活動匹配隱含的聲音環境。

Busy Parisian sidewalk cafe at golden hour, ambient sound environment of clinking cups, muted French conversation, and occasional distant accordion music, patrons gesturing animatedly at small tables, waiter weaving between tables carrying a tray, steam rising from espresso cups, gentle handheld camera movement, warm cinematic color palette, natural crowd density matching a lively cafe atmosphere.

一個生動的咖啡廳場景，角色動畫、人群密度和氛圍細節在聽覺上與描述的聲音環境協調一致。

雙人對話交流

具有不同說話風格的兩個角色之間的正反拍對話。

@audio[dialogue-exchange.wav] @image[character-a.png] @image[character-b.png] Two characters seated across a table, Character A speaks first with confident gestures and forward lean, Character B listens intently then responds with a gentle smile and slower cadence, alternate focus between speakers matching audio dialogue turns, consistent warm interior lighting, medium shot framing, natural reaction shots of the listener during each speaking turn.

一段自然的對話序列，兩個角色都有精確的唇型同步，適當的反應鏡頭，說話風格匹配音軌的節奏與語調。

常見問題

Seedance 2.0 是生成音訊輸出還是僅同步音訊輸入？

主要的工作流程是將視覺輸出同步到音訊輸入。附加你的音軌作為 @audio 參考，模型生成與之對齊的視覺效果。若專案需要生成音訊，請使用專門的音訊 AI 工具，再將其輸出作為參考饋入 Seedance。

使用 @audio 參考的唇型同步精確度如何？

唇型同步精確度取決於音訊清晰度和提示詞的具體性。清晰的單一說話者、中等語速的音訊效果最佳。加入 'precise lip synchronization' 並描述嘴部動作強度可提升精確度。快節奏或重疊的語音較難可靠同步。

可以在沒有實際音檔的情況下使用聲音設計提示嗎？

可以。僅靠文字描述聲音環境就能影響視覺輸出：人群噪音會導致更繁忙的場景，寂靜會導致靜止感。這種純文字方法即使在你計劃於後製添加音訊時，也能有效建立氛圍。