Seedance2
探索 Elser.ai

指南

Seedance 2.0 技术架构

本页根据公开来源(如官方博客、第三方 API 文档)整理 Seedance 2.0 的技术要点,非官方规格,可能未反映最新实现。具体规格与能力请以 Seedance 项目页与您所用平台为准。

最后更新: 最后核验:

来源基础与阅读边界

这些指南按第三方参考站方式整理,用来解释公开信息与常见用法,不等同于官方产品文档或官方支持内容。

来源依据

模型与输入

公开技术描述提到统一的「多模态音视频联合生成」架构。输入:文本 + 最多 9 张图、3 段视频、3 段音频(以平台为准)。文本驱动场景、动作与风格;图/视频/音频提供构图、动作、运镜与声音参考。提示词中的 @ 标签可指定各素材用途。根据公开信息,单次合计最多 12 个参考文件;具体限制以平台为准。

输出

视频:通常 4–15 秒可选;分辨率最高 2K(2048×1080);比例常见 16:9、9:16、1:1、4:3、3:4、21:9 及自适应。音频:原生立体声,与画面联合生成(非后期配音);公开报道支持多语种口型同步。多数流程支持视频延长与片段编辑。第三方报导提到 2K 电影感短片常见 45–60 秒生成时间;具体以平台为准。

音视频联合生成

第三方技术文章描述为「双分支扩散 Transformer」,在单次推理中同时处理画面与音频流,使口型、音效与音乐从生成起就与画面对齐。多镜头一致性通过复用同一参考图并在提示词中引用实现。根据公开报道,具体实现细节以官方文档为准。API 接入与异步流程请查阅火山引擎或第三方提供方文档。

常见问题

有 API 吗?

有。火山引擎 BytePlus 及第三方(如 fal.ai、Seedance2API 类文档)提供 API,流程多为异步:提交任务、轮询状态、下载结果。请以 Seedance 项目页与提供方开发者文档为准。

Seedance 2.0 支持什么分辨率?

根据公开报道,原生输出最高 2K(2048×1080),常见比例包括 16:9、9:16、1:1 等。详见本站对比页了解与其他工具的规格差异。

模型如何处理多模态输入?

根据公开技术描述,模型采用统一的文图音视频联合架构,单次可组合最多 9 张图、3 段视频、3 段音频加文本,通过 @ 标签在提示词中指定各素材用途。详见本站多模态指南。

相关指南