Seedance2

Guía

Arquitectura técnica de Seedance 2.0

Esta página resume los aspectos técnicos de Seedance 2.0 de fuentes públicas (por ejemplo, blog oficial, documentos de terceros API). No es una especificación oficial y es posible que no refleje la última implementación.

Última actualización: Última verificación:

Fuentes y alcance de lectura

Estas guías están escritas como resúmenes de referencia de terceros, no como documentación oficial del producto ni como contenido de soporte.

Base de fuentes

Modelo y entradas

Las descripciones técnicas públicas se refieren a una arquitectura de generación conjunta de audio y vídeo multimodal unificada. Entradas: texto más hasta 9 imágenes, 3 videoclips y 3 pistas de audio (sujeto a límites de la plataforma). El texto impulsa la escena, la acción y el estilo; Las imágenes/vídeos/audio proporcionan referencia para la composición, el movimiento, la cámara y el sonido. El sistema de etiquetas @ en las indicaciones le permite asignar roles a cada activo.

Salidas

Vídeo: normalmente seleccionable entre 4 y 15 segundos; resolución hasta 2K (2048×1080); Las relaciones de aspecto suelen incluir 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 y adaptativa. Audio: estéreo nativo, generado conjuntamente con vídeo (no postdoblado); sincronización de labios compatible con varios idiomas en informes públicos. La extensión de vídeo y la edición in situ son compatibles con muchos flujos de trabajo.

Generación conjunta audio-vídeo

Los artículos técnicos de terceros describen un transformador de difusión de doble rama que procesa transmisiones visuales y de audio en una sola inferencia, lo que permite alinear la sincronización de labios, los efectos de sonido y la música con la imagen desde el principio. La coherencia entre las tomas se logra reutilizando las mismas imágenes de referencia y haciendo referencia a ellas en el mensaje.

Preguntas frecuentes

¿Existe una API?

Sí. BytePlus/Volcano Engine y proveedores externos (por ejemplo, fal.ai, documentos estilo Seedance2API) ofrecen acceso API. El flujo de trabajo suele ser asíncrono: enviar el trabajo, estado de la encuesta, descargar el resultado. Consulte la página oficial del proyecto Seedance y los documentos para desarrolladores de su proveedor para conocer las ofertas y precios actuales de API.

¿Qué resolución admite Seedance 2.0?

Según informes públicos, la salida nativa llega hasta 2K (2048×1080), con relaciones de aspecto habituales como 16:9, 9:16, 1:1 y otras. Consulta nuestra guía de comparación para ver cómo se compara con otras herramientas.

¿Cómo maneja el modelo las entradas multimodales?

Según descripciones técnicas públicas, el modelo utiliza una arquitectura conjunta unificada de texto-imagen-video-audio. Una sola solicitud puede combinar hasta 9 imágenes, 3 videos y 3 pistas de audio más texto; el sistema de etiquetas @ en los prompts asigna roles a cada recurso. Consulta nuestra guía multimodal para más información.

Guías relacionadas