Voz e som precisos

Voz mais precisa e saída de som realista.

Última atualização: 2026-03-25

Se um vídeo ainda precisar de música de fundo, ambiente ou diálogo sincronizado com os lábios, o modelo pode gerar imagem e som juntos para que essas opções de áudio possam ser revisadas na mesma passagem.

Como ler páginas de capacidade

Estas páginas são escritas como resumos de referência de terceiros e não como documentação oficial do produto.

Base de dados

Descrições de capacidade resumem materiais de lançamento públicos Seedance 2.0, páginas de projeto públicas e outras escritas explicativas acessíveis ao público.

Limite

Este site não representa Seedance, suporte oficial de produtos ou qualquer parceria autorizada, a menos que uma página indique explicitamente que com base documentada.

Temporidade

O acesso à plataforma, recursos suportados, preços, UI e disponibilidade podem ser alterados. Use fontes oficiais ou primárias para informações atuais.

Gere voz, ambiente e música junto com a saída de vídeo. Como funciona: em vez de gerar vídeo silencioso e adicionar áudio na pós-produção, o modelo produz imagem e som na mesma passagem. Ele lê o contexto visual — movimentos labiais dos personagens, tipo de ambiente, intensidade da ação — e gera voz, ambiente, efeitos sonoros ou música de fundo correspondentes. Prompts de texto podem guiar o estilo do áudio ('BGM eletrônico animado', 'sons ambientes suaves de floresta', 'narração feminina em português'). Quando usar: produção de anúncios onde cada variante precisa de narração localizada; vídeos curtos para redes sociais onde BGM e timing importam mas sincronização manual é lenta demais; prototipagem de cenas onde você quer avaliar imagem e som juntos antes de investir em áudio profissional; conteúdo multilíngue onde o mesmo vídeo precisa de narrações em diferentes idiomas. Dicas e notas práticas: para melhores resultados de sincronização labial, mantenha os rostos dos personagens claramente visíveis e desobstruídos. Especifique o idioma e o tom de voz no seu prompt — 'narrador masculino calmo em japonês' dá melhores resultados do que apenas 'adicionar voz.' Ao combinar áudio nativo com sincronização musical, o modelo pode lidar com alinhamento de batidas do BGM e diálogo simultaneamente. Revise o áudio na primeira passagem para identificar problemas de timing cedo, em vez de gerar muitas variantes antes de verificar.

Exemplo Ilustrativo

UnileverFMCG

AI Produção em massa de anúncios em áudio

Contexto

Necessário produzir mais de 1.000 anúncios personalizados para diferentes mercados regionais, cada um exigindo música de fundo e narração; o ciclo de produção tradicional era de 7 dias por anúncio

Como foi usado

Geração de áudio nativa usada para combinar automaticamente músicas de fundo e dublagens adequadas, suportando a geração rápida de versões em vários idiomas

Dados de referência

Os números de referência citados para este exemplo incluem o tempo de produção caindo de 7 dias para 30 minutos, o custo por anúncio passando de CNY 50.000 para CNY 200 e as vendas do Double 11 crescendo 40% ano após ano.

✦

Por que isso importa:A imagem e o som foram gerados juntos, o que ajudou a equipe a revisar as variantes de anúncios multilíngues com mais rapidez.

Base de dados

Casos ilustrativos neste site são compilados a partir de recapitulações de campanha pública e relatórios secundários disponíveis no momento da escrita.

Contexto temporal

As métricas refletem o período de campanha relatado e não devem ser tratadas como benchmarks de desempenho atuais.

Nota de dados

As marcas e os números são citados apenas para uso explicativo, não como averbamentos, garantias ou resultados auditados de forma independente.

Exemplos de áudio nativo

Voz, efeitos sonoros, geração de música, referência de voz.

Cavalo olho de peixe BGM (multi-vídeo)

Vídeo curtoAvançadoReferência multivídeo com geração de áudio sincronizada

Plano fixo, fisheye central através de abertura circular olhando para baixo, referência @video1 fisheye, cavalo em @video2 olha para o fisheye, referência @video1 movimento de fala, BGM referência @video3 áudio.

Vídeo de referência

Vídeo de referência 1: Cavalo olho de peixe BGM (multi-vídeo)

Cavalo olho de peixe BGM (multi-vídeo) - Vídeo de referência 2

Vídeo de referência 2: Cavalo olho de peixe BGM (multi-vídeo)

Cavalo olho de peixe BGM (multi-vídeo) - Vídeo de referência 3

Vídeo de referência 3: Cavalo olho de peixe BGM (multi-vídeo)

Resultado gerado

Resultado gerado: Cavalo olho de peixe BGM (multi-vídeo) — Referência multivídeo com geração de áudio sincronizada

Documentário sobre prédio de escritórios VO

PublicidadeAvançadoDocumentário imobiliário com clonagem de referência de voz

A partir das fotos de prédio de escritórios fornecidas, gere documentário cinematográfico de 15s, 2.35:1 widescreen, 24fps, visuais refinados, tom de voz-off referência @video1...

Imagens de referência

Imagens de referência 1: Documentário sobre prédio de escritórios VO

Documentário sobre prédio de escritórios VO - Imagens de referência 2

Imagens de referência 2: Documentário sobre prédio de escritórios VO

Documentário sobre prédio de escritórios VO - Imagens de referência 3

Imagens de referência 3: Documentário sobre prédio de escritórios VO

Vídeo de referência

Vídeo de referência 1: Documentário sobre prédio de escritórios VO

Resultado gerado

Resultado gerado: Documentário sobre prédio de escritórios VO — Documentário imobiliário com clonagem de referência de voz

Talk show sobre cães e gatos

Vídeo curtoInicianteGeração de diálogo cômico com expressão emocional

Segmento de talk show gato e cachorro, emocionalmente rico, estilo stand-up comedy...

Imagens de referência

Imagens de referência 1: Talk show sobre cães e gatos

Resultado gerado

Resultado gerado: Talk show sobre cães e gatos — Geração de diálogo cômico com expressão emocional

Ópera Yu 铡美案

Música MVIntermediárioPerformance de ópera tradicional com vocais sincronizados

Acompanhamento de ópera Yu 'Executando Chen Shimei', Bao Zheng de preto aponta para Chen de vermelho, canta ferozmente. Olhos de Chen rolam, papel dan: Espere!

Imagens de referência

Imagens de referência 1: Ópera Yu 铡美案

Resultado gerado

Resultado gerado: Ópera Yu 铡美案 — Performance de ópera tradicional com vocais sincronizados

Banda MV pôr do sol no penhasco

Música MVIntermediárioVídeo musical cinematográfico com áudio atmosférico

Gere MV de 15s. Composição estável, leve push-pull, ângulo baixo heroico, ultra-wide establishing, estrada de penhasco e trailer vintage, horizonte do mar, contraluz de pôr do sol volumétrico, enquadramento cinematográfico.

Imagens de referência

Imagens de referência 1: Banda MV pôr do sol no penhasco

Resultado gerado

Resultado gerado: Banda MV pôr do sol no penhasco — Vídeo musical cinematográfico com áudio atmosférico

Celebração da família latina

Música MVIntermediárioCena de celebração musical com áudio cultural

Garota de chapéu no centro canta suavemente Estou muito orgulhoso da minha família! vira para abraçar garota negra. Música latina, saias voando, rua colorida dançando.

Imagens de referência

Imagens de referência 1: Celebração da família latina

Resultado gerado

Resultado gerado: Celebração da família latina — Cena de celebração musical com áudio cultural

Esquadrão Tático Espanhol

JogosIntermediárioDiálogo multilíngue para cenas de jogos

Plano fixo. Capitão em espanhol: Assalto em três minutos! Loiro verifica armas, verde segura lanterna tática. Colega negro: Flanco? Capitão: Como sempre, mantenha um para interrogatório.

Imagens de referência

Imagens de referência 1: Esquadrão Tático Espanhol

Resultado gerado

Resultado gerado: Esquadrão Tático Espanhol — Diálogo multilíngue para cenas de jogos

Referência de voz para chamada de despertar

FilmeIntermediárioClonagem de voz para cenas de diálogo narrativo

0-3s: Plano fixo, garota de @image1 dormindo na cama. 3-10s: Pan rápido para close do rosto do homem (@image2), homem a acorda com resignação, tom e voz referência @video1.

Imagens de referência

Imagens de referência 1: Referência de voz para chamada de despertar

Referência de voz para chamada de despertar - Imagens de referência 2

Imagens de referência 2: Referência de voz para chamada de despertar

Vídeo de referência

Vídeo de referência 1: Referência de voz para chamada de despertar

Resultado gerado

Resultado gerado: Referência de voz para chamada de despertar — Clonagem de voz para cenas de diálogo narrativo

Chá de bolha de macaco Sichuan

Vídeo curtoIntermediárioDiálogo de dialeto regional para conteúdo divertido

Macaco de @image1 vai ao balcão de chá com bolhas, @image2 servidor Bichon limpa ferramentas, macaco pede em dialeto Sichuan: Ei, tem Farewell My Concubine?

Imagens de referência

Imagens de referência 1: Chá de bolha de macaco Sichuan

Chá de bolha de macaco Sichuan - Imagens de referência 2

Imagens de referência 2: Chá de bolha de macaco Sichuan

Chá de bolha de macaco Sichuan - Imagens de referência 3

Imagens de referência 3: Chá de bolha de macaco Sichuan

Resultado gerado

Resultado gerado: Chá de bolha de macaco Sichuan — Diálogo de dialeto regional para conteúdo divertido

Montanha de Chamas do Rei Macaco

EducaçãoIntermediárioContação de histórias educativa com áudio narrativo

Estilo e tom educacionais, encene conteúdo de @image1: Monkey King cruza Montanha de Fogo para pedir leque emprestado à Princess Iron Fan, ela busca vingança por Red Boy, ele suplica em vão, eles discutem.

Imagens de referência

Imagens de referência 1: Montanha de Chamas do Rei Macaco

Resultado gerado

Resultado gerado: Montanha de Chamas do Rei Macaco — Contação de histórias educativa com áudio narrativo

Perguntas frequentes

O Seedance 2.0 gera voz e som automaticamente?▼

Sim. Seedance 2.0 pode gerar voz, ambiente e música que correspondam ao vídeo, com sincronização labial e tempo tratados na mesma passagem, o que pode reduzir o trabalho de pós-produção de áudio separado.

O áudio nativo oferece suporte a vários idiomas?▼

Sim. A geração de áudio nativo oferece suporte a narrações em vários idiomas, o que pode ajudar as equipes a preparar versões localizadas para diferentes mercados regionais.

Posso controlar o estilo do áudio gerado?▼

Sim. Use prompts de texto para especificar o estilo do áudio — por exemplo 'BGM eletrônico animado', 'sons ambientes suaves de floresta' ou 'narração feminina em inglês.' O modelo lê tanto sua orientação de texto quanto o contexto visual para gerar áudio correspondente.

Master the 5-step shot design workflow for Seedance 2.0: from requirement analysis through visual diagnosis, six-element assembly, validation, to professional delivery. Includes 28+ director presets, three-layer lighting, and multi-segment storyboarding.

Abrir guia

Guia

Short-Form Social Video with Seedance-Style Models — Reels, Shorts, TikTok-Class Pacing (2026)

O personagem demonstra alegria, tristeza, surpresa; rosto natural e linguagem corporal.

EmoçãoExpressãoEntrega emocional

Abrir página de capacidade