Seedance 2.0 완전 가이드: 멀티모달 AI 영상 제작을 처음부터 배우기
Seedance 2.0은 ByteDance의 멀티모달 AI 영상 모델로, 텍스트, 이미지, 영상 클립, 오디오로부터 시네마틱 영상을 생성합니다. 두 가지 생성 모드, 에셋을 정밀하게 제어하는 @ 참조 시스템, 네이티브 오디오 생성 기능을 하나의 워크플로에 통합했습니다. 모든 기능의 사용법을 안내합니다.
두 가지 생성 모드
Seedance 2.0은 서로 다른 워크플로에 적합한 두 가지 진입점을 제공합니다.
첫/마지막 프레임 모드
- 이미지 1장을 오프닝 또는 엔딩 프레임으로 업로드
- 원하는 움직임과 장면에 대한 텍스트 설명 추가
- 적합한 용도: 간단한 애니메이션, 이미지-영상 변환, 빠른 테스트
올인원 참조 모드 (권장)
- 이미지 + 영상 클립 + 오디오 + 텍스트를 단일 생성에서 조합
- 최대 12개 참조 파일을 동시에 사용 가능
- 적합한 용도: 복잡한 멀티 에셋 제작, 뮤직비디오, 캐릭터 중심 내러티브
입력 사양
| 입력 유형 | 제한 | 제어 대상 |
|---|---|---|
| 이미지 | 최대 9장 | 캐릭터 외형, 장면 스타일, 제품 디테일 |
| 영상 클립 | 최대 3개(총 15초 이하) | 카메라 움직임, 액션 리듬, 전환 효과 |
| 오디오 파일 | MP3 최대 3개(총 15초 이하) | 배경 음악, 효과음, 내레이션 톤 |
| 텍스트 | 자연어 | 장면 설명, 액션 지시, 분위기 |
파일 상한: 1회 생성당 12개 참조 파일.
@ 참조 시스템
가장 중요한 기능입니다. @ 시스템을 사용하면 업로드한 각 파일에 특정 역할을 지정할 수 있으며, 모델은 추측이 아닌 지정된 역할을 정확히 수행합니다.
@ 사용법
- 에셋(이미지, 영상, 오디오)을 업로드
- 프롬프트 입력창에 **@**를 입력하여 에셋 선택기 열기
- 파일을 선택하고 생성에서의 역할을 기술
@ 참조를 사용한 프롬프트 예시
@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.
핵심 규칙
- 업로드한 모든 파일은 @로 명시적으로 역할을 지정
- 에셋에 마우스를 올려 미리보기로 올바른 파일을 참조하는지 확인
- 모델은 지정한 내용을 그대로 실행 — 추측하지 않음
프롬프트 작성 기법
1. 타임라인 형식으로 작성
프롬프트를 시간 구간으로 나누어 정밀하게 제어:
- 0~3초: "Wide shot of a city skyline at dawn, slow pan right" (새벽 도시 스카이라인 와이드 샷, 천천히 오른쪽 팬)
- 4~8초: "Cut to medium shot, character enters from the left, walking" (미디엄 샷으로 컷, 캐릭터가 왼쪽에서 걸어 등장)
- 9~12초: "Push-in to close-up on character's face, soft focus background" (캐릭터 얼굴 클로즈업으로 푸시인, 배경 소프트 포커스)
2. 구체적인 카메라 용어 사용
모델은 전문 촬영 용어를 이해합니다:
- Push-in / Pull-out — 피사체를 향해 또는 멀어지는 줌
- Pan — 카메라 수평 이동
- Tilt — 카메라 수직 이동
- Tracking shot — 피사체의 움직임을 따라가는 카메라
- Orbit — 피사체 주위를 도는 카메라
- One-take — 끊김 없는 연속 촬영
3. 전환 효과 기술
멀티 샷 시퀀스를 만들 때 장면 연결 방식을 지정:
- "Fade from outdoor scene to indoor close-up" (야외 장면에서 실내 클로즈업으로 페이드)
- "Match cut from spinning coin to spinning globe" (회전하는 동전에서 회전하는 지구본으로 매치 컷)
- "Whip pan transition to the next scene" (휩 팬으로 다음 장면 전환)
4. 참조와 지시를 구분
- 참조: "@video1 for camera movement" — 모델이 카메라 워크를 추출하여 재현
- 지시: "slow push-in from wide to close-up" — 텍스트 설명으로부터 모델이 움직임을 생성
핵심 기능
영상 품질
- 물리 법칙에 기반한 모션(중력, 천의 드레이프, 유체 역학)
- 사람과 동물의 부드럽고 자연스러운 움직임
- 프롬프트에 대한 정확한 준수
- 전체적으로 일관된 비주얼 스타일
멀티모달 결합
- 참조 영상에서 카메라 움직임 추출
- 참조 이미지에서 캐릭터 외형 추출
- 참조 오디오에서 음악 리듬 추출
- 세 가지 모두를 단일 생성에서 결합
캐릭터 일관성
- 샷 간 얼굴, 의상, 표정 유지
- 브랜드 요소 일관성(로고, 색상, 타이포그래피)
- 장면 스타일 일관성(조명, 분위기)
카메라 및 모션 재현
- 참조 영상에서 특정 촬영 기법을 재현
- 히치콕 줌, 오빗 트래킹, 원테이크 시퀀스
- 모션 속도와 리듬의 정밀한 매칭
출력 사양
- 길이: 4~15초(선택 가능)
- 해상도: 최대 2K / 1080p
- 화면비: 16:9(가로), 9:16(세로), 1:1(정사각형)
- 오디오: 네이티브 지원 — 대사 싱크, 배경 음악, 효과음 포함
- 생성 속도: 15초 영상당 약 30포인트, 이전 세대 대비 10배 빠름
중요 참고 사항
- 실제 사람 얼굴 사용 불가 — 실제 사람의 얼굴이 선명하게 포함된 이미지는 콘텐츠 모더레이션에 의해 차단
- 양보다 질 — 원하는 출력에 가장 큰 영향을 미치는 에셋만 업로드
- @ 지정 확인 — 각 에셋 참조에 마우스를 올려 올바른 파일 매핑 확인
- 모델의 랜덤성 — 생성마다 결과가 다르므로 여러 번 생성 후 최적의 결과 선택
- 이용 가능 플랫폼: Jimeng(즉몽), Doubao(더우바오), Volcano Engine(훠산인칭)
자주 묻는 질문
두 가지 생성 모드란?
첫/마지막 프레임 모드(이미지 1장 + 텍스트)는 간단한 생성용, 올인원 참조 모드(최대 12개 멀티모달 파일)는 복잡한 제작용입니다.
@ 참조 시스템은 어떻게 작동하나요?
프롬프트 입력창에 @를 입력하고, 업로드한 파일을 선택한 뒤 역할을 기술합니다. 예: "@image1을 캐릭터 참조로, @video1로 카메라 움직임 참조." 모델은 지정한 대로 정확히 실행합니다.
입력 제한은 어떻게 되나요?
이미지 최대 9장, 영상 클립 3개(총 15초 이하), 오디오 파일 3개(총 15초 이하), 텍스트. 1회 생성당 최대 12개 파일.
어떤 출력을 생성하나요?
최대 2K 해상도에 네이티브 오디오가 포함된 4~15초 영상. 화면비는 16:9, 9:16, 1:1 지원.
실제 사람 사진을 사용할 수 있나요?
아니요. 실제 사람의 얼굴이 선명하게 포함된 이미지는 콘텐츠 모더레이션에 의해 차단됩니다. 스타일화되거나 일러스트로 된 캐릭터 참조 이미지를 사용해 주세요.
지금 바로 제작을 시작하세요. Seedance 2.0 사용해 보기 — 무료 체험 가능.