La guia completa de Seedance 2.0: creacion de video con IA multimodal desde cero
Seedance 2.0 es el modelo de video con IA multimodal de ByteDance que genera video cinematografico a partir de texto, imagenes, clips de video y audio. Ofrece dos modos de creacion, un sistema de referencias @ para el control preciso de recursos y generacion de audio nativo, todo en un mismo flujo de trabajo. Aqui te explicamos como usar cada funcion.
Dos modos de creacion
Seedance 2.0 ofrece dos puntos de entrada, cada uno adaptado a diferentes flujos de trabajo:
Modo Primer/Ultimo Fotograma
- Sube una imagen como fotograma de apertura o cierre
- Agrega una descripcion de texto del movimiento y la escena deseados
- Ideal para: animaciones simples, conversiones de imagen a video, pruebas rapidas
Modo de Referencia Todo en Uno (Recomendado)
- Combina imagenes + clips de video + audio + texto en una sola generacion
- Admite hasta 12 archivos de referencia simultaneamente
- Ideal para: producciones complejas con multiples recursos, videos musicales, narrativas basadas en personajes
Especificaciones de entrada
| Tipo de entrada | Limite | Que controla |
|---|---|---|
| Imagenes | Hasta 9 | Apariencia de personajes, estilo de escena, detalles de producto |
| Clips de video | Hasta 3 (total ≤15s) | Movimiento de camara, ritmo de accion, efectos de transicion |
| Archivos de audio | Hasta 3 MP3 (total ≤15s) | Musica de fondo, efectos de sonido, tono de voz en off |
| Texto | Lenguaje natural | Descripcion de escena, instrucciones de accion, ambiente |
Limite total de archivos: 12 archivos de referencia por generacion.
El sistema de referencias @
Esta es la funcion mas importante que debes aprender. El sistema @ te permite asignar un rol especifico a cada archivo subido: el modelo sigue tus asignaciones con precision en lugar de adivinar.
Como usar @
- Sube tus recursos (imagenes, videos, audio)
- En el cuadro de prompt, escribe @ para abrir el selector de recursos
- Selecciona un archivo y describe su rol en la generacion
Ejemplo de prompt con referencias @
@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.
Reglas clave
- Cada archivo subido debe ser asignado explicitamente con @
- Pasa el cursor sobre los recursos para previsualizarlos y verificar que referencias el archivo correcto
- El modelo ejecuta exactamente lo que asignas, sin adivinar
Tecnicas de escritura de prompts
1. Escribe por linea de tiempo
Divide tu prompt en segmentos temporales para un control preciso:
- 0-3s: "Plano general de un horizonte urbano al amanecer, paneo lento a la derecha"
- 4-8s: "Corte a plano medio, el personaje entra por la izquierda, caminando"
- 9-12s: "Acercamiento a primer plano del rostro del personaje, fondo con enfoque suave"
2. Usa lenguaje de camara especifico
El modelo entiende terminos profesionales de cinematografia:
- Push-in / Pull-out — zoom hacia o alejandose del sujeto
- Pan — movimiento horizontal de camara
- Tilt — movimiento vertical de camara
- Tracking shot — la camara sigue el movimiento del sujeto
- Orbit — la camara gira alrededor del sujeto
- One-take — toma continua sin cortes
3. Describe las transiciones
Al crear secuencias con multiples tomas, especifica como se conectan las escenas:
- "Fundido de la escena exterior a primer plano interior"
- "Corte por coincidencia de la moneda girando al globo terraqueo girando"
- "Transicion con paneo rapido a la siguiente escena"
4. Distingue entre referencia e instruccion
- Referencia: "@video1 for camera movement" — el modelo extrae y replica el trabajo de camara
- Instruccion: "slow push-in from wide to close-up" — el modelo genera el movimiento a partir de tu descripcion de texto
Capacidades principales
Calidad de imagen
- Movimiento fisicamente preciso (gravedad, caida de telas, dinamica de fluidos)
- Movimiento humano y animal suave y natural
- Fidelidad precisa al prompt
- Estilo visual consistente en todo el video
Combinacion multimodal
- Extrae el movimiento de camara de un video de referencia
- Extrae la apariencia del personaje de imagenes de referencia
- Extrae el ritmo musical del audio de referencia
- Combina los tres en una sola generacion
Consistencia de personajes
- Preservacion de rostro, vestimenta y expresion entre tomas
- Consistencia de elementos de marca (logotipos, colores, tipografia)
- Consistencia del estilo de escena (iluminacion, atmosfera)
Replicacion de camara y movimiento
- Replica tecnicas cinematograficas especificas de videos de referencia
- Zoom Hitchcock, seguimiento orbital, secuencias de toma unica
- Ajuste preciso de velocidad y ritmo de movimiento
Especificaciones de salida
- Duracion: 4-15 segundos (seleccionable)
- Resolucion: Hasta 2K / 1080p
- Relaciones de aspecto: 16:9 (horizontal), 9:16 (vertical), 1:1 (cuadrado)
- Audio: Nativo — incluye sincronizacion de dialogo, musica de fondo, efectos de sonido
- Velocidad de generacion: ~30 puntos por video de 15 segundos, 10 veces mas rapido que la generacion anterior
Notas importantes
- Sin rostros humanos reales — las subidas con rostros humanos reales claramente visibles son bloqueadas por la moderacion de contenido
- Calidad sobre cantidad — sube solo los recursos que tengan mayor impacto en el resultado deseado
- Verifica las asignaciones @ — pasa el cursor sobre cada referencia de recurso para confirmar la asignacion correcta del archivo
- Aleatoriedad del modelo — los resultados varian entre generaciones; genera multiples veces y elige el mejor
- Disponible en: Jimeng, Doubao, Volcano Engine
Preguntas frecuentes
Cuales son los dos modos de creacion?
Modo Primer/Ultimo Fotograma (una imagen + texto) para generaciones simples, y modo de Referencia Todo en Uno (hasta 12 archivos multimodales) para producciones complejas.
Como funciona el sistema de referencias @?
Escribe @ en el cuadro de prompt, selecciona un archivo subido y describe su rol. Ejemplo: "@image1 como referencia de personaje, @video1 para movimiento de camara." El modelo sigue tus asignaciones con precision.
Cuales son los limites de entrada?
Hasta 9 imagenes, 3 clips de video (≤15s en total), 3 archivos de audio (≤15s en total) y texto. Maximo 12 archivos por generacion.
Que salida produce?
De 4 a 15 segundos de video con resolucion de hasta 2K con audio nativo, en relaciones de aspecto 16:9, 9:16 o 1:1.
Puedo usar fotos de personas reales?
No. Las subidas con rostros humanos reales claramente visibles son bloqueadas por la moderacion de contenido. Usa referencias de personajes estilizados o ilustrados.
Listo para empezar a crear? Prueba Seedance 2.0 ahora — prueba gratuita disponible.