Arquitectura técnica de Seedance 2.0
Esta página resume los aspectos técnicos de Seedance 2.0 de fuentes públicas (por ejemplo, blog oficial, documentos de terceros API). No es una especificación oficial y es posible que no refleje la última implementación.
Última actualización:
Última verificación:
Frecuencia de actualización: Cada pocos días
Fuentes y alcance de lectura
Estas guías están escritas como resúmenes de referencia de terceros, no como documentación oficial del producto ni como contenido de soporte.
Fuentes consultadas
Recopilado a partir del material de lanzamiento de ByteDance Seed publicado el 12 de febrero de 2026, la página pública del proyecto y una selección de tutoriales, comparativas y análisis de flujos de trabajo de terceros.
Alcance
Usa estas páginas para entender afirmaciones públicas, flujos de trabajo habituales y terminología. No deben leerse como soporte oficial, autorización ni declaraciones del propietario del producto.
Vigencia
Los portales, los precios, la interfaz, los idiomas compatibles, la velocidad de generación y la disponibilidad de API pueden cambiar. Verifica los datos vigentes en fuentes oficiales o primarias antes de basarte en ellos.
Base de fuentes
Esta página resume materiales de acceso público. Las especificaciones, precios y acceso pueden cambiar; verifique las fuentes primarias antes de tomar decisiones.
- ByteDance official launch blog: Seedance 2.0
official · 2026-03-27
- ByteDance Seedance 2.0 project page
official · 2026-03-27
- ByteDance Seed Models page
official · 2026-03-27
Modelo y entradas
Las descripciones técnicas públicas se refieren a una arquitectura de generación conjunta de audio y vídeo multimodal unificada. Entradas: texto más hasta 9 imágenes, 3 videoclips y 3 pistas de audio (sujeto a límites de la plataforma). El texto impulsa la escena, la acción y el estilo; Las imágenes/vídeos/audio proporcionan referencia para la composición, el movimiento, la cámara y el sonido. El sistema de etiquetas @ en las indicaciones le permite asignar roles a cada activo.
Salidas
Vídeo: normalmente seleccionable entre 4 y 15 segundos; resolución hasta 2K (2048×1080); Las relaciones de aspecto suelen incluir 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 y adaptativa. Audio: estéreo nativo, generado conjuntamente con vídeo (no postdoblado); sincronización de labios compatible con varios idiomas en informes públicos. La extensión de vídeo y la edición in situ son compatibles con muchos flujos de trabajo.
Generación conjunta audio-vídeo
Los artículos técnicos de terceros describen un transformador de difusión de doble rama que procesa transmisiones visuales y de audio en una sola inferencia, lo que permite alinear la sincronización de labios, los efectos de sonido y la música con la imagen desde el principio. La coherencia entre las tomas se logra reutilizando las mismas imágenes de referencia y haciendo referencia a ellas en el mensaje.
Preguntas frecuentes
¿Existe una API?
Sí. BytePlus/Volcano Engine y proveedores externos (por ejemplo, fal.ai, documentos estilo Seedance2API) ofrecen acceso API. El flujo de trabajo suele ser asíncrono: enviar el trabajo, estado de la encuesta, descargar el resultado. Consulte la página oficial del proyecto Seedance y los documentos para desarrolladores de su proveedor para conocer las ofertas y precios actuales de API.
¿Qué resolución admite Seedance 2.0?
Según informes públicos, la salida nativa llega hasta 2K (2048×1080), con relaciones de aspecto habituales como 16:9, 9:16, 1:1 y otras. Consulta nuestra guía de comparación para ver cómo se compara con otras herramientas.
Seedance 2.0 vs Kling AI: comparación con otras herramientas¿Cómo maneja el modelo las entradas multimodales?
Según descripciones técnicas públicas, el modelo utiliza una arquitectura conjunta unificada de texto-imagen-video-audio. Una sola solicitud puede combinar hasta 9 imágenes, 3 videos y 3 pistas de audio más texto; el sistema de etiquetas @ en los prompts asigna roles a cada recurso. Consulta nuestra guía multimodal para más información.
Seedance 2.0 Omni-Reference & Entrada Multimodal — Imágenes, Vídeo y Audio de referencia explicadosGuías relacionadas
- Seedance 2.0 vs Kling AI: comparación con otras herramientas
- Seedance 2.0 Omni-Reference & Entrada Multimodal — Imágenes, Vídeo y Audio de referencia explicados
- Seedance 2.0 Tutorial — Cómo usar texto a video e imagen a video (paso a paso)
Explora más guías