Seedance2

가이드

Seedance 2.0 기술 아키텍처

이 페이지는 공개 출처(예: 공식 블로그, 서드파티 API 문서)에서 Seedance 2.0의 기술적 측면을 요약합니다. 공식 사양은 아니며 최신 구현을 반영하지 않을 수 있습니다.

최종 업데이트: 최종 검증:

정보 출처 및 참고사항

본 가이드는 공식 제품 문서나 지원 콘텐츠가 아닌 서드파티 참조 자료로 작성되었습니다.

출처 기준

모델 및 입력

공개 기술 설명은 통합된 멀티모달 오디오-비디오 공동 생성 아키텍처를 참조합니다. 입력: 텍스트 플러스 최대 9개 이미지, 3개 비디오 클립 및 3개 오디오 트랙(플랫폼 제한에 따름). 텍스트는 장면, 동작 및 스타일을 주도합니다. 이미지/비디오/오디오는 구성, 동작, 칩의 및 사운드에 대한 참조를 제공합니다. 프롬프트의 @ 태그 시스템을 통해 각 자산에 역할을 할당할 수 있습니다.

출력

비디오: 일반적으로 선택 가능한 4~15초, 최대 2K(2048×1080) 해상도, 종횡비는 종상 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 및 적응형을 포함합니다. 오디오: 네이티브 스테레오, 비디오와 함께 공동 생성(후반 더빙 없음), 공개 보고서에서 여러 언어로 립싱크 지원. 많은 워크플로우에서 비디오 확장 및 현장 편집이 지원됩니다.

오디오-비디오 공동 생성

서드파티 기술 설명은 시각적 및 오디오 스트림을 단일 추론에서 처리하여 처음부터 립싱크, 사운드 효과 및 음악을 이미지와 정렬할 수 있게 하는 듀얼 브랜치 확산 트랜스포머를 설명합니다. 샷 간 일관성은 동일한 참조 이미지를 재사용하고 프롬프트에서 참조함으로써 달성됩니다.

자주 묻는 질문

API가 있나요?

예. BytePlus/Volcano Engine 및 서드파티 제공업체(예: fal.ai, Seedance2API 스타일 문서)는 API 액세스를 제공합니다. 워크플로우는 종상 비동기식입니다. 작업 제출, 폴링 상태, 결과 다운로드. 현재 API 제공 사항 및 가격 책정은 공식 Seedance 프로젝트 페이지 및 제공업체의 개발자 문서를 확인하세요.

Seedance 2.0은 어떤 해상도를 지원하나요?

공개 보고서에 따르면 네이티브 출력은 최대 2K(2048×1080)이며, 일반적인 종횡비는 16:9, 9:16, 1:1 등입니다. 다른 도구와의 비교는 비교 가이드를 참조하세요.

모델은 멀티모달 입력을 어떻게 처리하나요?

공개 기술 설명에 따르면 모델은 통합된 텍스트-이미지-비디오-오디오 공동 아키텍처를 사용합니다. 단일 요청으로 최대 9개 이미지, 3개 비디오, 3개 오디오 트랙에 텍스트를 결합할 수 있습니다. 프롬프트의 @ 태그 시스템으로 각 자산에 역할을 할당합니다. 멀티모달 가이드를 참조하세요.

관련 가이드