语音和音效驱动的音频感知视频生成

Seedance 2.0 声音设计与对白提示词

Seedance 2.0 支持音频感知生成，其中 @audio 引用和声音设计提示词会影响视觉输出。本页涵盖对白口型同步技术、声音语调指导、环境声设计，以及如何编写将视觉动作与音频线索同步的提示词，以获得更具整体感的结果。

每日更新状态: 即将上线

最后更新: 2026-03-26

当前状态

模板、示例和后续媒体证明应集中放在这里，而不是散落在宽泛的教程指南中。

媒体证明

图片证明：即将补充

视频证明：即将补充

对白口型同步基础

要生成带有准确口型运动的说话角色，需附加包含对白音轨的 @audio 引用，并在提示词中描述角色的说话方式。指定口部运动强度、情绪语调和头部手势。模型使用音频时间来驱动口型同步和面部微表情。

通过提示词指导声音语调

即使没有 @audio 引用，你也可以通过在提示词中描述声音特质来影响隐含的声音角色：「whispering softly」、「shouting with urgency」或「speaking calmly with measured pauses」。这些描述会影响生成视频中的面部表情、肢体语言和口部运动模式。

环境声设计线索

在提示词中描述声音环境，创造听觉上连贯的视觉效果。「安静的图书馆，偶尔的翻页声」与「喧闹的市场，商贩的吆喝声」会产生截然不同的视觉氛围。声音设计线索引导模型生成合适的人群密度、环境动态和氛围效果。

将视觉动作与音频节拍同步

对于音乐视频或节奏性内容，使用 @audio 引用来驱动视觉时间。描述哪些视觉事件应与音频节拍对齐：「character turns on the drum hit, camera cuts on the bass drop」。这将创造出经过刻意编排的紧密音画同步效果。

多角色对白场景

对于两人或多人对话，将提示词组织为依次发言的序列。标明哪个角色在何时说话、每句话时的情绪状态，以及倾听角色的反应。为每个角色附加独立的 @image 引用以保持身份，并附加一个 @audio 引用提供完整的对白音轨。

Input / Output 示例

带音频引用的角色独白

生成与提供的对白音轨同步的特写说话镜头。

@audio[monologue-track.wav] @image[character-anchor.png] Close-up of the character from reference, speaking directly to camera, emotional monologue delivery matching audio timing, subtle brow movements and eye glistening on emotional beats, warm studio lighting from above-left, shallow depth of field, natural lip synchronization with reference audio, gentle head tilts between phrases.

一个特写独白镜头，口型与音轨精确同步，面部微表情自然，角色身份与参考图一致。

Evidence: native-audio capability examples

环境声驱动的场景

创建一个咖啡厅场景，视觉活动与隐含的声音环境相匹配。

Busy Parisian sidewalk cafe at golden hour, ambient sound environment of clinking cups, muted French conversation, and occasional distant accordion music, patrons gesturing animatedly at small tables, waiter weaving between tables carrying a tray, steam rising from espresso cups, gentle handheld camera movement, warm cinematic color palette, natural crowd density matching a lively cafe atmosphere.

一个生动的咖啡厅场景，角色动画、人群密度和氛围细节在听觉上与描述的声音环境保持连贯。

双角色对白交互

两个角色之间具有不同说话风格的正反打对话。

@audio[dialogue-exchange.wav] @image[character-a.png] @image[character-b.png] Two characters seated across a table, Character A speaks first with confident gestures and forward lean, Character B listens intently then responds with a gentle smile and slower cadence, alternate focus between speakers matching audio dialogue turns, consistent warm interior lighting, medium shot framing, natural reaction shots of the listener during each speaking turn.

一段自然的对话序列，两个角色的口型精确同步，反应镜头恰当，说话风格与音轨的节奏和语调相匹配。

常见问题

Seedance 2.0 是生成音频还是仅同步音频输入？

主要工作流是将视觉输出与音频输入同步。附加音轨作为 @audio 引用，模型生成与之对齐的视觉内容。如果项目需要生成音频，请使用专门的音频 AI 工具，然后将其输出作为引用导入 Seedance。

使用 @audio 引用的口型同步精度如何？

口型同步精度取决于音频清晰度和提示词的具体程度。清晰的单人语音配合适中语速效果最佳。添加「precise lip synchronization」并描述口部运动强度可以提高精度。语速过快或重叠的语音更难可靠同步。

不提供实际音频文件也能使用声音设计线索吗？

可以。仅通过文本描述声音环境也能影响视觉输出：人群噪声会使场景更繁忙，寂静则带来静谧感。这种纯文本方式即使你计划在后期添加音频，也能很好地营造氛围。