Guida

Seedance 2.0 Omni-Reference — Input multimodale

Secondo il ByteDance Seed blog (Feb 2026), Seedance 2.0 utilizza una pipeline multimodale unificata: è possibile combinare il testo con fino a 9 immagini, 3 clip video e 3 tracce audio in una sola richiesta (soggetto ai limiti della piattaforma). Il modello può fare riferimento a composizione, movimento, fotocamera, effetti e suono da questi ingressi. Questa sezione riassume la descrizione pubblica di tale sistema.

Ultimo aggiornamento: 2026-03-27Ultima verifica: 2026-03-27

Base di origine e confine di lettura

Queste guide sono scritte come sintesi di riferimento di terze parti, non documentazione ufficiale del prodotto o contenuto di supporto.

Base delle fonti

ByteDance official launch blog: Seedance 2.0(2026-03-27)
ByteDance Seedance 2.0 project page(2026-03-27)

Ingressi supportati

Testo: prompt delle lingue naturali. Immagini: spesso fino a 9 (ad esempio 30 MB ciascuno in alcuni documenti). Video: fino a 3 clip, spesso 2–15 s totale, ~50 MB per clip. Audio: fino a 3 file, spesso ≤15 s totale, ~15 MB ciascuno. Totale di fino a 12 file di riferimento in un colpo. Il modello li utilizza per il layout, il movimento, la fotocamera, lo stile e il suono come indicato dal vostro prompt e @ tag.

@ sistema di riferimento tag

È possibile fare riferimento ai beni caricati nel prompt con i tag @ (ad esempio @Image1, @Video1, @Audio1). Esempi di documenti pubblici: “@Image1 come primo frame,” “Riferimento @Video1 per il movimento della fotocamera,” “Usa @Audio1 per la musica di sottofondo.” Questo dà un controllo preciso su quale immagine guida il carattere, quale video guida il movimento, e quale audio guida musica o dialogo.

@ esempi pratici di riferimento

Pattern comuni di @ tag per Omni-Reference: (1) Blocco primo frame: '@Image1 come fotogramma di apertura, personaggio cammina verso la telecamera' — fissa la composizione iniziale. (2) Coerenza personaggio: 'Stesso personaggio di @Image1, stesso outfit di @Image2' — blocca l identità tra le riprese. (3) Replica camera: 'Replicare il movimento camera di @Video1, applicare alla nuova scena con @Image1' — trasferisce la traiettoria. (4) Audio: 'Usa @Audio1 come musica di sottofondo, lip-sync con @Audio2' — separa musica e voce. (5) Combo multi-riferimento: '@Image1 come personaggio, @Image2 come sfondo, @Video1 per camera, @Audio1 per suono ambientale' — assemblaggio completo con 4 riferimenti. Specificare sempre il ruolo di ogni asset nel prompt.

@ esempi pratici di riferimento

Generazione audio-video nativo

Seedance 2.0 genera video e audio in un unico processo articolare (non post-dubbing). Supporta l'output stereo, il lip-sync (incluse più lingue nei rapporti pubblici), e l'allineamento di effetti musicali e sonori con l'immagine. Utile per annunci, MV e clip dialog-pesanti.

Domande frequenti

Quante immagini di riferimento posso usare?

Secondo la documentazione pubblica, fino a 9 immagini in una sola richiesta, più 3 video e 3 file audio. Controllare i limiti attuali della piattaforma e le regole della dimensione del file.

Quali input supporta Seedance 2.0 multimodale?

Secondo i rapporti pubblici, Seedance 2.0 supporta testo, fino a 9 immagini, 3 clip video e 3 tracce audio più linguaggio naturale. Fino a 12 file di riferimento per richiesta. Vedi il nostro tutorial per il flusso completo.

Come l'input audio influisce sull'output video?

Secondo la documentazione pubblica, l'input audio può guidare musica di sottofondo, dialogo o effetti sonori. Il modello genera immagine e audio congiuntamente, con il suono allineato all'immagine. Supporta lip-sync multilingue. Vedi il nostro tutorial per maggiori informazioni.

Posso combinare riferimenti immagine e video?

Sì. Secondo la documentazione pubblica, puoi combinare fino a 9 immagini e 3 clip video in una richiesta. Usa i tag @ nel prompt per assegnare il ruolo di ogni asset. Vedi la nostra guida immagine-video per i dettagli.

Guide correlate

Guida

Seedance 2.0 Tutorial — Come usare testo-in-video e immagine-in-video (passo dopo passo)

Seedance 2.0 tutorial: text-to-video vs immagine-to-video, struttura rapida, impostazioni e generazione. Sulla base di guide pubbliche e flussi di lavoro tipici.

Guida aperta

Guida

Seedance 2.0 Architettura tecnica

Panoramica tecnica del Seedance 2.0: trasformatore di diffusione a doppio freno, ingressi multimodali (9 immagini, 3 video, 3 audio), uscita 2K, 4–15 s, generazione congiunta audio-video nativo.

Guida aperta

Guida

Seedance 2.0 Consigli per i prompt — Come scrivere prompt video migliori

Come scrivere efficace Seedance 2.0 prompt: soggetto + azione + ambiente + fotocamera + formule di stile, @ tag di riferimento, e cosa evitare. Sulla base di guide pubbliche.

Guida aperta

Scopri altre guide