Seedance 2.0 技術架構
本頁根據公開來源(如官方部落格、第三方 API 文檔)整理 Seedance 2.0 的技術要點,非官方規格,可能未反映最新實作。以下依據第三方報導與公開資訊整理,具體以平台為準。
最後更新:
最後核驗:
更新節奏: 每隔數日
來源基礎與閱讀邊界
這些指南按第三方參考站方式整理,用來解釋公開資訊與常見用法,不等同於官方產品文件或官方支援內容。
內容來源
已於 2026 年 3 月 24 日重新核對目前的 ByteDance Seedance 2.0 專案頁、Seed Models 頁、Dreamina 官方資源與 BytePlus / ModelArk 文件。
閱讀邊界
這些頁面適合用來理解公開能力表述、常見流程和術語,不應被理解為官方支援、授權聲明或產品方立場。
時效性
接入路徑、輸入上限、排隊行為、價格與 API 可用性都可能因產品表面而變。請把 Dreamina、BytePlus / ModelArk 與合作夥伴路徑視為不同產品,直到最新文件明確證實一致。
來源依據
本頁基於公開資料整理。規格、價格與接入方式可能變化,決策前請再核對官方與一手來源。
- ByteDance official launch blog: Seedance 2.0
official · 2026-03-27
- ByteDance Seedance 2.0 project page
official · 2026-03-27
- ByteDance Seed Models page
official · 2026-03-27
模型與輸入
根據公開資訊,公開技術描述提到統一的「多模態音影片聯合生成」架構。輸入:文本 + 最多 9 張圖、3 段影片、3 段音頻(以平台為準)。文本驅動場景、動作與風格;圖/影片/音頻提供構圖、動作、運鏡與聲音參考。提示詞中的 @ 標籤可指定各素材用途。
輸出
影片:通常 4–15 秒可選;解析度最高 2K(2048×1080);比例常見 16:9、9:16、1:1、4:3、3:4、21:9 及自適應。音頻:原生立體聲,與畫面聯合生成(非後期配音);根據公開報導支援多語種口型同步。多數流程支援影片延長與片段編輯。
音影片聯合生成
根據第三方報導,技術文章描述為「雙分支擴散 Transformer」,在單次推理中同時處理畫面與音頻流,使口型、音效與音樂從生成起就與畫面對齊。多鏡頭一致性透過複用同一參考圖並在提示詞中引用實作。API 可透過火山引擎 BytePlus 及第三方提供方接入,流程多為非同步(提交任務、輪詢狀態、下載結果)。具體規格請以 Seedance 專案頁與提供方開發者文檔為準。
常見問題
有 API 嗎?
有。火山引擎 BytePlus 及第三方(如 fal.ai、Seedance2API 類文檔)提供 API,流程多為非同步:提交任務、輪詢狀態、下載結果。請以 Seedance 專案頁與提供方開發者文檔為準。
Seedance 2.0 支援什麼解析度?
根據公開報導,原生輸出最高 2K(2048×1080),常見比例包括 16:9、9:16、1:1 等。詳見本站對比頁了解與其他工具的規格差異。
Seedance 2.0 對比 Kling AI 等工具模型如何處理多模態輸入?
根據公開技術描述,模型採用統一的文圖音視頻聯合架構,單次可組合最多 9 張圖、3 段視頻、3 段音頻加文本,透過 @ 標籤在提示詞中指定各素材用途。詳見本站多模態指南。
Seedance 2.0 全能參考(Omni-Reference)與多模態輸入 — 圖片、影片與音訊參考詳解相關指南
- Seedance 2.0 對比 Kling AI 等工具
- Seedance 2.0 全能參考(Omni-Reference)與多模態輸入 — 圖片、影片與音訊參考詳解
- Seedance 2.0 完整使用手冊 — 如何使用文字生成影片與圖片生成影片(逐步指南)
查看更多指南