指南

Seedance 2.0 全能参考（Omni-Reference）— 多模态输入指南

Seedance 2.0 拥有全能参考（Omni-Reference）系统 — 一套统一的多模态管线，单次可组合文本与最多 9 张图、3 段视频、3 段音频（以平台为准）。根据字节 Seed 官方博客（2026 年 2 月），模型可参考这些输入的构图、动作、运镜、特效与声音。本节整理全能参考系统的公开描述。

最后更新: 2026-03-27最后核验: 2026-03-27

来源基础与阅读边界

这些指南按第三方参考站方式整理，用来解释公开信息与常见用法，不等同于官方产品文档或官方支持内容。

来源依据

ByteDance official launch blog: Seedance 2.0(2026-03-27)
ByteDance Seedance 2.0 project page(2026-03-27)

支持的输入

文本：自然语言提示。图片：通常最多 9 张（部分文档约 30 MB/张）。视频：最多 3 段，总时长约 2–15 秒，单段约 50 MB。音频：最多 3 个，总时长约 ≤15 秒，约 15 MB/个。单次合计最多 12 个参考文件。模型按提示与 @ 标签使用它们控制构图、动作、运镜与声音。根据公开信息，具体限制以平台为准；文件格式与大小请查阅您所用平台的文档。

@ 标签引用

在提示词中用 @ 引用上传素材（如 @Image1、@Video1、@Audio1）。公开示例：「@Image1 作为首帧」「参考 @Video1 的运镜」「使用 @Audio1 作为背景音乐」。可精确指定哪张图管角色、哪段视频管动作、哪段音频管音乐或对白。根据公开信息，具体 @ 语法以平台为准；多素材时建议在提示词中明确各素材用途。

@ 引用实战示例

全能参考（Omni-Reference）常见 @ 用法：（1）首帧锁定：'@Image1 作为首帧，角色走向镜头' — 固定开场构图。（2）角色一致性：'与 @Image1 同一角色，穿着与 @Image2 相同服装' — 跨镜头锁定身份。（3）运镜复刻：'复制 @Video1 的运镜，应用于新场景，@Image1 为主体' — 迁移运动轨迹。（4）音频驱动：'@Audio1 作为背景音乐，@Audio2 驱动口型对白' — 分离音乐与人声。（5）多素材组合：'@Image1 为角色，@Image2 为背景，参考 @Video1 运镜，@Audio1 为环境音' — 4 个参考组成完整场景。务必在提示词中写明每个素材的用途，未指定的素材可能被忽略。

原生音视频联合生成

Seedance 2.0 在单次生成中同时输出画面与音频（非后期配音），支持立体声与多语种口型同步，音乐和音效与画面节奏对齐，适合广告、MV 与对白较多的片段。第三方报导提到，需要音频时应在提示词中写明声音设计（如背景音乐、对白或音效）；口型同步支持多语种，具体以平台为准。

常见问题

可以用几张参考图？

据公开文档，单次最多 9 张图，另可加 3 段视频与 3 段音频。请以您所用平台的当前限制与文件大小为准。

Seedance 2.0 多模态支持哪些输入？

根据公开信息，Seedance 2.0 支持文本、最多 9 张图、3 段视频、3 段音频加自然语言。单次合计最多 12 个参考文件。详见本站教程了解完整流程。

音频输入如何影响视频输出？

根据公开文档，音频输入可驱动背景音乐、对白或音效。模型会联合生成画面与音频，音效与画面节奏对齐。支持多语种口型同步。详见本站教程。

可以同时使用图片和视频参考吗？

可以。据公开文档，单次可组合最多 9 张图与 3 段视频，用 @ 标签在提示词中指定各素材用途。详见本站图生视频指南。