Seedance2

Guia

Seedance 2.0 Omni-Reference — Entrada Multimodal

Segundo o funcionário ByteDance Blog de sementes (Fev 2026), Seedance 2.0 usa um pipeline multimodal unificado: você pode combinar texto com até 9 imagens, 3 clipes de vídeo e 3 faixas de áudio em uma solicitação (sujeito a limites de plataforma). O modelo pode referenciar composição, movimento, câmera, efeitos e som a partir dessas entradas. Esta secção resume a descrição pública desse sistema.

Última atualização: Última verificação:

Base de origem e limite de leitura

Estes guias são escritos como resumos de referência de terceiros, não documentação oficial do produto ou conteúdo de suporte.

Base de fontes

Inputs suportados

Texto: prompt de linguagem natural. Imagens: muitas vezes até 9 (por exemplo, 30 MB cada em alguns documentos). Vídeo: até 3 clipes, muitas vezes 2-15 s total, ~50 MB por clipe. Áudio: até 3 arquivos, muitas vezes ≤15 s total, ~15 MB cada. Total de até 12 arquivos de referência de uma só vez. O modelo usa-os para layout, movimento, câmera, estilo e som como dirigido por seu prompt e @ tags.

@ tag reference system

Você pode se referir a ativos carregados no prompt com @ tags (por exemplo. @Image1, @Video1, @Audio1). Exemplos de documentos públicos: «@Image1 como o primeiro quadro, “Referência @Video1 para o movimento da câmera, “Usar @Audio1 para música de fundo.” Isso dá um controle preciso sobre qual personagem de unidade de imagem, que o vídeo movimenta movimento, e que o áudio movimenta música ou diálogo.

@ exemplos práticos de referência

Padrões comuns de @ tags para Omni-Reference: (1) Bloqueio do primeiro quadro: '@Image1 como quadro de abertura, personagem caminha em direção à câmera' — fixa a composição inicial. (2) Consistência de personagem: 'Mesmo personagem que @Image1, mesma roupa que @Image2' — trava identidade entre takes. (3) Replicação de câmera: 'Replicar movimento de câmera de @Video1, aplicar à nova cena com @Image1' — transfere trajetória. (4) Áudio: 'Usar @Audio1 como música de fundo, lip-sync com @Audio2' — separa música e voz. (5) Combo multi-referência: '@Image1 como personagem, @Image2 como fundo, @Video1 para câmera, @Audio1 para som ambiente' — montagem completa com 4 referências. Sempre especifique o papel de cada ativo no prompt.

@ exemplos práticos de referência

Padrões comuns de @ tags para Omni-Reference: (1) Bloqueio do primeiro quadro: '@Image1 como quadro de abertura, personagem caminha em direção à câmera' — fixa a composição inicial. (2) Consistência de personagem: 'Mesmo personagem que @Image1, mesma roupa que @Image2' — trava identidade entre takes. (3) Replicação de câmera: 'Replicar movimento de câmera de @Video1, aplicar à nova cena com @Image1' — transfere trajetória. (4) Áudio: 'Usar @Audio1 como música de fundo, lip-sync com @Audio2' — separa música e voz. (5) Combo multi-referência: '@Image1 como personagem, @Image2 como fundo, @Video1 para câmera, @Audio1 para som ambiente' — montagem completa com 4 referências. Sempre especifique o papel de cada ativo no prompt.

Geração de áudio-vídeo nativa

Seedance 2.0 gera vídeo e áudio em um único processo conjunto (não pós-dublagem). Ele suporta saída estéreo, lip-sync (incluindo várias línguas em relatórios públicos), e alinhamento de música e efeitos sonoros com a imagem. Útil para anúncios, MV e clipes pesados de diálogo.

Perguntas mais frequentes

Quantas imagens de referência posso usar?

De acordo com a documentação pública, até 9 imagens em um pedido, mais 3 vídeos e 3 arquivos de áudio. Verifique os limites atuais da sua plataforma e as regras de tamanho de arquivo.

Que entradas suporta o Seedance 2.0 multimodal?

Segundo relatórios públicos, o Seedance 2.0 suporta texto, até 9 imagens, 3 clipes de vídeo e 3 faixas de áudio mais linguagem natural. Até 12 ficheiros de referência por pedido. Consulte o nosso tutorial para o fluxo completo.

Como a entrada de áudio afeta a saída de vídeo?

Segundo a documentação pública, a entrada de áudio pode impulsionar música de fundo, diálogo ou efeitos sonoros. O modelo gera imagem e áudio em conjunto, com o som alinhado à imagem. Suporta sincronização labial multilingue. Consulte o nosso tutorial para mais.

Posso combinar referências de imagem e vídeo?

Sim. Segundo a documentação pública, pode combinar até 9 imagens e 3 clipes de vídeo num pedido. Use tags @ no prompt para atribuir o papel de cada ativo. Consulte o nosso guia imagem-para-vídeo para detalhes.

Guias relacionados