Voix et son précis

Voix plus précise et sortie sonore réaliste.

Dernière mise à jour: 2026-03-25

Si une vidéo nécessite encore une musique de fond, une ambiance ou un dialogue synchronisé sur les lèvres, le modèle peut générer une image et un son ensemble afin que ces choix audio puissent être examinés en même temps.

Comment lire les pages de capacités

Ces pages sont rédigées sous forme de résumés de référence tiers plutôt que de documentation produit officielle.

Base source

Les descriptions de capacités résument les documents de lancement publics Seedance 2.0, les pages publiques du projet et d'autres documents explicatifs accessibles au public.

Limite

Ce site ne représente pas Seedance, le support produit officiel ou tout partenariat autorisé, sauf si une page l'indique explicitement sur une base documentée.

Actualité

L'accès à la plateforme, les fonctionnalités prises en charge, les prix, l'interface utilisateur et la disponibilité peuvent changer. Utilisez des sources officielles ou primaires pour obtenir des informations actuelles.

Générez voix, ambiance et musique en même temps que la sortie vidéo. Comment ça fonctionne : au lieu de générer une vidéo muette puis d'ajouter le son en post-production, le modèle produit image et son en une seule passe. Il lit le contexte visuel — mouvements des lèvres des personnages, type d'environnement, intensité de l'action — et génère la voix, l'ambiance, les effets sonores ou la musique de fond correspondants. Les prompts textuels peuvent guider le style audio (« BGM électronique entraînant », « sons ambiants doux de forêt », « voix off féminine en anglais »). Quand l'utiliser : production publicitaire où chaque variante nécessite une voix off localisée ; courts-métrages pour les réseaux sociaux où le BGM et le timing comptent mais la synchronisation manuelle est trop lente ; prototypage de scènes où l'on souhaite évaluer image-plus-son ensemble avant d'investir dans un audio professionnel ; contenu multilingue où la même vidéo nécessite des voix off dans différentes langues. Conseils pratiques : pour de meilleurs résultats de synchronisation labiale, gardez les visages des personnages clairement visibles et non obstrués. Précisez la langue et le ton de la voix dans votre prompt — « narrateur masculin calme en japonais » donne de meilleurs résultats que simplement « ajouter une voix ». En combinant l'audio natif avec la synchronisation musicale, le modèle peut gérer l'alignement des beats du BGM et le dialogue simultanément. Vérifiez l'audio dès la première passe pour repérer les problèmes de timing plutôt que de générer de nombreuses variantes avant vérification.

Exemple illustratif

UnileverProduits de grande consommation

AI Production de masse d'annonces audio

Contexte

Nécessaire pour produire plus de 1 000 publicités personnalisées pour différents marchés régionaux, chacune nécessitant une musique de fond et une voix off ; le cycle de production traditionnel était de 7 jours par annonce

Comment il a été utilisé

Utilisation de la génération audio native pour faire correspondre automatiquement la musique de fond et les voix off appropriées, prenant en charge la génération rapide de versions multilingues

Données de référence

Les chiffres de référence cités pour cet exemple incluent le temps de production passant de 7 jours à 30 minutes, le coût par annonce passant de 50 000 CNY à 200 CNY et les ventes de Double 11 augmentant de 40 % d'une année sur l'autre.

✦

Pourquoi c'est important:L'image et le son ont été générés ensemble, ce qui a permis à l'équipe d'examiner plus rapidement les variantes d'annonces multilingues.

Base source

Les cas illustratifs présentés sur ce site sont compilés à partir de récapitulations de campagnes publiques et de rapports secondaires disponibles au moment de la rédaction.

Contexte temporel

Les mesures reflètent la période de campagne déclarée et ne doivent pas être traitées comme des références de performances actuelles.

Remarque sur les données

Les noms de marques et les chiffres sont cités à titre explicatif uniquement, et non à titre d'approbation, de garantie ou de résultats audités de manière indépendante.

Exemples audio natifs

Voix, effets sonores, génération de musique, référence vocale.

Musique de fond pour cheval Fish-eye (multi-vidéo)

Courte vidéoAvancéRéférence multi-vidéo avec génération audio synchronisée

Plan fixe, fisheye central à travers ouverture circulaire regardant vers le bas, référence @video1 fisheye, cheval dans @video2 regarde le fisheye, référence @video1 mouvement de parole, BGM référence @video3 audio.

Vidéo de référence

Vidéo de référence 1: Musique de fond pour cheval Fish-eye (multi-vidéo)

Musique de fond pour cheval Fish-eye (multi-vidéo) - Vidéo de référence 2

Vidéo de référence 2: Musique de fond pour cheval Fish-eye (multi-vidéo)

Musique de fond pour cheval Fish-eye (multi-vidéo) - Vidéo de référence 3

Vidéo de référence 3: Musique de fond pour cheval Fish-eye (multi-vidéo)

Résultat généré

Résultat généré: Musique de fond pour cheval Fish-eye (multi-vidéo) — Référence multi-vidéo avec génération audio synchronisée

Documentaire sur un immeuble de bureaux VO

PublicitéAvancéDocumentaire immobilier avec clonage de référence vocale

À partir des photos de bâtiment de bureaux fournies, générez un documentaire cinématographique de 15s, format 2.35:1 grand écran, 24fps, visuels raffinés, ton de voix-off référence @video1...

Images de référence

Images de référence 1: Documentaire sur un immeuble de bureaux VO

Documentaire sur un immeuble de bureaux VO - Images de référence 2

Images de référence 2: Documentaire sur un immeuble de bureaux VO

Documentaire sur un immeuble de bureaux VO - Images de référence 3

Images de référence 3: Documentaire sur un immeuble de bureaux VO

Vidéo de référence

Vidéo de référence 1: Documentaire sur un immeuble de bureaux VO

Résultat généré

Résultat généré: Documentaire sur un immeuble de bureaux VO — Documentaire immobilier avec clonage de référence vocale

Débat-show sur les chats et les chiens

Courte vidéoDébutantGénération de dialogue comique avec expression émotionnelle

Segment talk-show chat et chien, émotionnellement riche, style stand-up comedy...

Images de référence

Images de référence 1: Débat-show sur les chats et les chiens

Résultat généré

Résultat généré: Débat-show sur les chats et les chiens — Génération de dialogue comique avec expression émotionnelle

Opéra Yu 铡美案

Musique MVIntermédiaireSpectacle d'opéra traditionnel avec chant synchronisé

Accompagnement de l'opéra Yu 'Exécution de Chen Shimei', Bao Zheng en noir pointe Chen en rouge, chante férocement. Yeux de Chen qui roulent, rôle dan : Attendez !

Images de référence

Images de référence 1: Opéra Yu 铡美案

Résultat généré

Résultat généré: Opéra Yu 铡美案 — Spectacle d'opéra traditionnel avec chant synchronisé

Bande MV coucher de soleil sur la falaise

Musique MVIntermédiaireClip vidéo cinématographique avec son atmosphérique

Générez un MV de 15s. Composition stable, léger push-pull, angle bas héroïque, ultra-large establishing, route de falaise et camping-car vintage, horizon marin, contre-jour coucher de soleil volumétrique, cadrage cinématographique.

Images de référence

Images de référence 1: Bande MV coucher de soleil sur la falaise

Résultat généré

Résultat généré: Bande MV coucher de soleil sur la falaise — Clip vidéo cinématographique avec son atmosphérique

Fête de famille latino

Musique MVIntermédiaireScène de célébration musicale avec audio culturel

Fille en chapeau au centre chante doucement Je suis si fière de ma famille ! se tourne pour embrasser la fille noire. Musique latine, jupes qui volent, rue colorée en danse.

Images de référence

Images de référence 1: Fête de famille latino

Résultat généré

Résultat généré: Fête de famille latino — Scène de célébration musicale avec audio culturel

Escouade tactique espagnole

JeuxIntermédiaireDialogue multilingue pour les cinématiques du jeu

Plan fixe. Capitaine en espagnol : Assaut dans trois minutes ! Blond vérifie les armes, vert vérifie la lampe tactique. Coéquipier noir : Flanc ? Capitaine : Comme d'habitude, gardez-en un pour interrogatoire.

Images de référence

Images de référence 1: Escouade tactique espagnole

Résultat généré

Résultat généré: Escouade tactique espagnole — Dialogue multilingue pour les cinématiques du jeu

Référence vocale d'appel de réveil

CinémaIntermédiaireClonage de voix pour les scènes de dialogue narratif

0-3s : Plan fixe, fille de @image1 endormie dans le lit. 3-10s : Pan rapide vers gros plan du visage de l'homme (@image2), homme la réveille avec résignation, ton et voix référence @video1.

Images de référence

Images de référence 1: Référence vocale d'appel de réveil

Référence vocale d'appel de réveil - Images de référence 2

Images de référence 2: Référence vocale d'appel de réveil

Vidéo de référence

Vidéo de référence 1: Référence vocale d'appel de réveil

Résultat généré

Résultat généré: Référence vocale d'appel de réveil — Clonage de voix pour les scènes de dialogue narratif

Thé aux bulles de singe Sichuan

Courte vidéoIntermédiaireDialogue en dialecte régional pour un contenu divertissant

Singe de @image1 va au comptoir de thé aux perles, @image2 serveur Bichon essuie les outils, singe commande en dialecte du Sichuan : Hé, vous avez Farewell My Concubine ?

Images de référence

Images de référence 1: Thé aux bulles de singe Sichuan

Thé aux bulles de singe Sichuan - Images de référence 2

Images de référence 2: Thé aux bulles de singe Sichuan

Thé aux bulles de singe Sichuan - Images de référence 3

Images de référence 3: Thé aux bulles de singe Sichuan

Résultat généré

Résultat généré: Thé aux bulles de singe Sichuan — Dialogue en dialecte régional pour un contenu divertissant

Montagne de flammes du Roi Singe

ÉducationIntermédiaireConte éducatif avec audio narratif

Style et ton éducatifs, jouez le contenu de @image1 : Monkey King traverse la Montagne de Feu pour emprunter l'éventail à Princess Iron Fan, elle cherche vengeance pour Red Boy, il supplie en vain, ils se querellent.

Images de référence

Images de référence 1: Montagne de flammes du Roi Singe

Résultat généré

Résultat généré: Montagne de flammes du Roi Singe — Conte éducatif avec audio narratif

Questions fréquemment posées

Seedance 2.0 génère-t-il automatiquement la voix et le son ?▼

Oui. Seedance 2.0 peut générer une voix, une ambiance et une musique qui correspondent à la vidéo, avec une synchronisation labiale et un timing gérés dans la même passe, ce qui peut réduire le travail de post-audio séparé.

L'audio natif prend-il en charge plusieurs langues ?▼

Oui. La génération audio native prend en charge les voix off multilingues, ce qui peut aider les équipes à préparer des versions localisées pour différents marchés régionaux.

Puis-je contrôler le style de l'audio généré ?▼

Oui. Utilisez des prompts textuels pour spécifier le style audio — par exemple « BGM électronique entraînant », « sons ambiants doux de forêt » ou « voix off féminine en anglais ». Le modèle lit à la fois vos indications textuelles et le contexte visuel pour générer un audio correspondant.

Comment la synchronisation labiale fonctionne-t-elle avec l'audio natif ?▼

Le modèle analyse les mouvements des lèvres des personnages visibles dans la vidéo générée et ajuste le timing de la voix générée en conséquence. Pour de meilleurs résultats, gardez les visages des personnages clairement visibles et précisez la langue et le ton dans votre prompt.

Guides associés

Continuez cette fonctionnalité avec des guides plus approfondis

Ces guides ajoutent un contexte de flux de travail, d'invite et de cas d'utilisation autour de cette fonctionnalité afin que la page se connecte au groupe de sujets Seedance plus large.

Voir tous les guides

Guide

Qu'est-ce que Seedance 2.0 de ByteDance ? Site officiel, date de lancement et accès

Aperçu public actuel de Seedance 2.0 de ByteDance : site officiel, date de lancement du 12 février 2026, signaux d'accès Dreamina, entrées multimodales, sorties 2K / 15 secondes et ce qui dépend encore de la surface utilisée.

Lire le guide

Guide

Seedance 2.0 Omni-Reference & Entrée Multimodale — Images, Vidéo et Audio de référence expliqués

Seedance 2.0 entrée multimodale : jusqu'à 9 images, 3 vidéos, 3 audio + texte. @ système de balises pour référencer les actifs. Génération conjointe audio-vidéo native.

Lire le guide

Guide

Seedance 2.0 Cas d'utilisation — Exemples concrets pour la publicité, le cinéma, l'éducation et plus

Cas d'utilisation Seedance 2.0 : publicités de commerce électronique, TVC, démonstrations de produits, aperçus de films, MV, éducation, immobilier et court récit. Basé sur le blog officiel et des études de cas tierces.

Lire le guide

Guide

Promo videos stitched from multiple clips: workflow field notes

Honest workflow notes when a longer promo is built from several Seedance 2.0 generations: unified references, the per-clip duration cap, audio continuity, and dialogue pacing.

Lire le guide

Guide

Seedance 2.0 Shot Design Workflow — Cinema-Grade Video Prompts

Master the 5-step shot design workflow for Seedance 2.0: from requirement analysis through visual diagnosis, six-element assembly, validation, to professional delivery. Includes 28+ director presets, three-layer lighting, and multi-segment storyboarding.

Lire le guide

Guide