Leitfaden

Seedance 2.0 Omni-Reference — Multimodale Eingaben

Laut offiziellem ByteDance-Seed-Blog vom Februar 2026 nutzt Seedance 2.0 eine einheitliche multimodale Pipeline. In einer Anfrage lassen sich Text mit bis zu 9 Bildern, 3 Videoclips und 3 Audiospuren kombinieren, natürlich innerhalb der Plattformgrenzen. So kann das Modell Komposition, Bewegung, Kamera, Effekte und Sound aus mehreren Quellen gleichzeitig beziehen.

Zuletzt aktualisiert: 2026-03-27Zuletzt verifiziert: 2026-03-27

Quellenbasis und Einordnung

Diese Leitfäden sind unabhängige Zusammenfassungen aus öffentlichen Quellen, keine offizielle Produktdokumentation und kein Support.

Quellenbasis

ByteDance official launch blog: Seedance 2.0(2026-03-27)
ByteDance Seedance 2.0 project page(2026-03-27)

Unterstützte Eingaben

Text dient als natürliche Sprachbeschreibung. Bilder sind laut einigen Dokumenten bis zu 9 Stück möglich, teils mit etwa 30 MB pro Datei. Videos können bis zu 3 Clips umfassen, oft zusammen 2-15 Sekunden mit rund 50 MB pro Clip. Audio ist in vielen Beschreibungen auf bis zu 3 Dateien mit insgesamt höchstens 15 Sekunden und etwa 15 MB pro Datei begrenzt. Insgesamt sind also bis zu 12 Referenzdateien in einer Anfrage möglich.

@-Tags als Referenzsystem

Hochgeladene Assets lassen sich im Prompt mit @-Tags ansprechen, also zum Beispiel @Image1, @Video1 oder @Audio1. Öffentliche Beispiele sind '@Image1 as the first frame', 'Reference @Video1 for camera movement' oder 'Use @Audio1 for background music'. So lässt sich sauber festlegen, welches Bild eine Figur steuert, welches Video die Bewegung vorgibt und welches Audio Musik oder Dialog liefert.

@ Referenz-Praxisbeispiele

Typische Omni-Reference @ Tag-Muster: (1) Erster-Frame-Lock: '@Image1 als Eröffnungsframe, Charakter läuft auf Kamera zu' — fixiert die Startkomposition. (2) Charakter-Konsistenz: 'Gleicher Charakter wie @Image1, gleiches Outfit wie @Image2' — sichert Identität über Shots. (3) Kamera-Replikation: 'Kamerabewegung von @Video1 replizieren, auf neue Szene mit @Image1 anwenden' — überträgt Bewegungspfad. (4) Audio-gesteuert: '@Audio1 als Hintergrundmusik, Lippensync-Dialog mit @Audio2' — trennt Musik und Stimme. (5) Multi-Referenz: '@Image1 als Charakter, @Image2 als Hintergrund, @Video1 für Kameraführung, @Audio1 als Ambiente' — vollständige Szene mit 4 Referenzen. Geben Sie im Prompt die Rolle jedes Assets an.

Native Audio-Video-Generierung

Seedance 2.0 erzeugt Bild und Ton in einem gemeinsamen Prozess statt über nachträgliches Dubbing. Öffentliche Quellen nennen Stereo-Ausgabe, Lip-Sync in mehreren Sprachen sowie die zeitliche Abstimmung von Musik und Soundeffekten mit dem Video. Gerade für Ads, MV und dialoglastige Clips ist das ein wichtiger Unterschied.

Häufige Fragen

Wie viele Referenzbilder kann ich verwenden?

Laut öffentlicher Dokumentation sind bis zu 9 Bilder in einer Anfrage möglich, zusätzlich 3 Videos und 3 Audiodateien. Die genauen Limits, Dateigrößen und Formate hängen aber von der jeweiligen Plattform ab.

Welche Eingaben unterstützt Seedance 2.0 multimodal?

Laut öffentlichen Berichten unterstützt Seedance 2.0 Text, bis zu 9 Bilder, 3 Videoclips und 3 Audiospuren plus natürliche Sprache. Bis zu 12 Referenzdateien pro Anfrage. Siehe unser Tutorial für den vollständigen Ablauf.

Wie beeinflusst Audioeingabe die Videoausgabe?

Laut öffentlicher Dokumentation kann Audioeingabe Hintergrundmusik, Dialog oder Soundeffekte steuern. Das Modell erzeugt Bild und Ton gemeinsam, der Ton ist mit dem Bild abgestimmt. Unterstützt mehrsprachige Lippensynchronisation. Siehe unser Tutorial für mehr.

Kann ich Bild- und Videoreferenzen kombinieren?

Ja. Laut öffentlicher Dokumentation können Sie bis zu 9 Bilder und 3 Videoclips in einer Anfrage kombinieren. Verwenden Sie @-Tags im Prompt, um die Rolle jedes Assets zuzuweisen. Siehe unseren Image-to-Video-Guide für Details.