Seedance2
探索 Elser.ai

指南

Seedance 2.0 全能参考(Omni-Reference)— 多模态输入指南

Seedance 2.0 拥有全能参考(Omni-Reference)系统 — 一套统一的多模态管线,单次可组合文本与最多 9 张图、3 段视频、3 段音频(以平台为准)。根据字节 Seed 官方博客(2026 年 2 月),模型可参考这些输入的构图、动作、运镜、特效与声音。本节整理全能参考系统的公开描述。

最后更新: 最后核验:

来源基础与阅读边界

这些指南按第三方参考站方式整理,用来解释公开信息与常见用法,不等同于官方产品文档或官方支持内容。

来源依据

支持的输入

文本:自然语言提示。图片:通常最多 9 张(部分文档约 30 MB/张)。视频:最多 3 段,总时长约 2–15 秒,单段约 50 MB。音频:最多 3 个,总时长约 ≤15 秒,约 15 MB/个。单次合计最多 12 个参考文件。模型按提示与 @ 标签使用它们控制构图、动作、运镜与声音。根据公开信息,具体限制以平台为准;文件格式与大小请查阅您所用平台的文档。

@ 标签引用

在提示词中用 @ 引用上传素材(如 @Image1、@Video1、@Audio1)。公开示例:「@Image1 作为首帧」「参考 @Video1 的运镜」「使用 @Audio1 作为背景音乐」。可精确指定哪张图管角色、哪段视频管动作、哪段音频管音乐或对白。根据公开信息,具体 @ 语法以平台为准;多素材时建议在提示词中明确各素材用途。

@ 引用实战示例

全能参考(Omni-Reference)常见 @ 用法:(1)首帧锁定:'@Image1 作为首帧,角色走向镜头' — 固定开场构图。(2)角色一致性:'与 @Image1 同一角色,穿着与 @Image2 相同服装' — 跨镜头锁定身份。(3)运镜复刻:'复制 @Video1 的运镜,应用于新场景,@Image1 为主体' — 迁移运动轨迹。(4)音频驱动:'@Audio1 作为背景音乐,@Audio2 驱动口型对白' — 分离音乐与人声。(5)多素材组合:'@Image1 为角色,@Image2 为背景,参考 @Video1 运镜,@Audio1 为环境音' — 4 个参考组成完整场景。务必在提示词中写明每个素材的用途,未指定的素材可能被忽略。

原生音视频联合生成

Seedance 2.0 在单次生成中同时输出画面与音频(非后期配音),支持立体声与多语种口型同步,音乐和音效与画面节奏对齐,适合广告、MV 与对白较多的片段。第三方报导提到,需要音频时应在提示词中写明声音设计(如背景音乐、对白或音效);口型同步支持多语种,具体以平台为准。

常见问题

可以用几张参考图?

据公开文档,单次最多 9 张图,另可加 3 段视频与 3 段音频。请以您所用平台的当前限制与文件大小为准。

Seedance 2.0 多模态支持哪些输入?

根据公开信息,Seedance 2.0 支持文本、最多 9 张图、3 段视频、3 段音频加自然语言。单次合计最多 12 个参考文件。详见本站教程了解完整流程。

音频输入如何影响视频输出?

根据公开文档,音频输入可驱动背景音乐、对白或音效。模型会联合生成画面与音频,音效与画面节奏对齐。支持多语种口型同步。详见本站教程。

可以同时使用图片和视频参考吗?

可以。据公开文档,单次可组合最多 9 张图与 3 段视频,用 @ 标签在提示词中指定各素材用途。详见本站图生视频指南。

相关指南