Seedance2
探索 Elser.ai

Seedance 2.0 技術架構

本頁根據公開來源(如官方部落格、第三方 API 文檔)整理 Seedance 2.0 的技術要點,非官方規格,可能未反映最新實作。以下依據第三方報導與公開資訊整理,具體以平台為準。

最後更新:

最後核驗:

更新節奏: 每隔數日

來源基礎與閱讀邊界

這些指南按第三方參考站方式整理,用來解釋公開資訊與常見用法,不等同於官方產品文件或官方支援內容。

內容來源

已於 2026 年 3 月 24 日重新核對目前的 ByteDance Seedance 2.0 專案頁、Seed Models 頁、Dreamina 官方資源與 BytePlus / ModelArk 文件。

閱讀邊界

這些頁面適合用來理解公開能力表述、常見流程和術語,不應被理解為官方支援、授權聲明或產品方立場。

時效性

接入路徑、輸入上限、排隊行為、價格與 API 可用性都可能因產品表面而變。請把 Dreamina、BytePlus / ModelArk 與合作夥伴路徑視為不同產品,直到最新文件明確證實一致。

來源依據

本頁基於公開資料整理。規格、價格與接入方式可能變化,決策前請再核對官方與一手來源。

模型與輸入

根據公開資訊,公開技術描述提到統一的「多模態音影片聯合生成」架構。輸入:文本 + 最多 9 張圖、3 段影片、3 段音頻(以平台為準)。文本驅動場景、動作與風格;圖/影片/音頻提供構圖、動作、運鏡與聲音參考。提示詞中的 @ 標籤可指定各素材用途。

輸出

影片:通常 4–15 秒可選;解析度最高 2K(2048×1080);比例常見 16:9、9:16、1:1、4:3、3:4、21:9 及自適應。音頻:原生立體聲,與畫面聯合生成(非後期配音);根據公開報導支援多語種口型同步。多數流程支援影片延長與片段編輯。

音影片聯合生成

根據第三方報導,技術文章描述為「雙分支擴散 Transformer」,在單次推理中同時處理畫面與音頻流,使口型、音效與音樂從生成起就與畫面對齊。多鏡頭一致性透過複用同一參考圖並在提示詞中引用實作。API 可透過火山引擎 BytePlus 及第三方提供方接入,流程多為非同步(提交任務、輪詢狀態、下載結果)。具體規格請以 Seedance 專案頁與提供方開發者文檔為準。

常見問題

有 API 嗎?

有。火山引擎 BytePlus 及第三方(如 fal.ai、Seedance2API 類文檔)提供 API,流程多為非同步:提交任務、輪詢狀態、下載結果。請以 Seedance 專案頁與提供方開發者文檔為準。

Seedance 2.0 支援什麼解析度?

根據公開報導,原生輸出最高 2K(2048×1080),常見比例包括 16:9、9:16、1:1 等。詳見本站對比頁了解與其他工具的規格差異。

Seedance 2.0 對比 Kling AI 等工具

模型如何處理多模態輸入?

根據公開技術描述,模型採用統一的文圖音視頻聯合架構,單次可組合最多 9 張圖、3 段視頻、3 段音頻加文本,透過 @ 標籤在提示詞中指定各素材用途。詳見本站多模態指南。

Seedance 2.0 全能參考(Omni-Reference)與多模態輸入 — 圖片、影片與音訊參考詳解

相關指南

查看更多指南

Reviewer
由 Seedance2 編輯團隊審核
最近審核
Content basis
基於公開來源的第三方整理

本內容基於公開可取得的資料整理,不代表官方產品文件。