La guida completa a Seedance 2.0: creazione video con IA multimodale da zero

Seedance 2.0 e il modello di video IA multimodale di ByteDance che genera video cinematografici da testo, immagini, clip video e audio. Offre due modalita di creazione, un sistema di riferimenti @ per il controllo preciso delle risorse e la generazione di audio nativo, il tutto in un unico flusso di lavoro. Ecco come utilizzare ogni funzionalita.

Due modalita di creazione

Seedance 2.0 offre due punti di accesso, ciascuno adatto a flussi di lavoro diversi:

Modalita Primo/Ultimo Fotogramma

  • Carica un'immagine come fotogramma di apertura o chiusura
  • Aggiungi una descrizione testuale del movimento e della scena desiderati
  • Ideale per: animazioni semplici, conversioni da immagine a video, test rapidi

Modalita Riferimento Tutto in Uno (Consigliata)

  • Combina immagini + clip video + audio + testo in un'unica generazione
  • Supporta fino a 12 file di riferimento contemporaneamente
  • Ideale per: produzioni complesse con risorse multiple, video musicali, narrazioni basate su personaggi

Specifiche di input

Tipo di inputLimiteCosa controlla
ImmaginiFino a 9Aspetto dei personaggi, stile della scena, dettagli del prodotto
Clip videoFino a 3 (totale ≤15s)Movimento della camera, ritmo dell'azione, effetti di transizione
File audioFino a 3 MP3 (totale ≤15s)Musica di sottofondo, effetti sonori, tono della voce fuori campo
TestoLinguaggio naturaleDescrizione della scena, istruzioni di azione, atmosfera

Limite totale di file: 12 file di riferimento per generazione.

Il sistema di riferimenti @

Questa e la funzionalita piu importante da imparare. Il sistema @ ti permette di assegnare un ruolo specifico a ogni file caricato: il modello segue le tue assegnazioni con precisione invece di indovinare.

Come usare @

  1. Carica le tue risorse (immagini, video, audio)
  2. Nella casella del prompt, digita @ per aprire il selettore delle risorse
  3. Seleziona un file e descrivi il suo ruolo nella generazione

Esempio di prompt con riferimenti @

@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.

Regole chiave

  • Ogni file caricato deve essere assegnato esplicitamente con @
  • Passa il cursore sulle risorse per visualizzarne l'anteprima e verificare di fare riferimento al file corretto
  • Il modello esegue esattamente cio che assegni, senza indovinare

Tecniche di scrittura dei prompt

1. Scrivi per linea temporale

Suddividi il prompt in segmenti temporali per un controllo preciso:

  • 0-3s: "Campo largo di uno skyline cittadino all'alba, panoramica lenta verso destra"
  • 4-8s: "Stacco su piano medio, il personaggio entra da sinistra, camminando"
  • 9-12s: "Avvicinamento al primo piano del volto del personaggio, sfondo con messa a fuoco morbida"

2. Usa un linguaggio di camera specifico

Il modello comprende i termini professionali della cinematografia:

  • Push-in / Pull-out — zoom verso o lontano dal soggetto
  • Pan — movimento orizzontale della camera
  • Tilt — movimento verticale della camera
  • Tracking shot — la camera segue il movimento del soggetto
  • Orbit — la camera ruota attorno al soggetto
  • One-take — ripresa continua senza interruzioni

3. Descrivi le transizioni

Quando crei sequenze con piu inquadrature, specifica come le scene si collegano:

  • "Dissolvenza dalla scena esterna al primo piano interno"
  • "Match cut dalla moneta che gira al globo che ruota"
  • "Transizione con panoramica rapida alla scena successiva"

4. Distingui tra riferimento e istruzione

  • Riferimento: "@video1 for camera movement" — il modello estrae e replica il lavoro di camera
  • Istruzione: "slow push-in from wide to close-up" — il modello genera il movimento dalla tua descrizione testuale

Capacita principali

Qualita dell'immagine

  • Movimento fisicamente accurato (gravita, drappeggio dei tessuti, dinamica dei fluidi)
  • Movimento umano e animale fluido e naturale
  • Aderenza precisa al prompt
  • Stile visivo coerente in tutto il video

Combinazione multimodale

  • Estrai il movimento della camera da un video di riferimento
  • Estrai l'aspetto del personaggio da immagini di riferimento
  • Estrai il ritmo musicale dall'audio di riferimento
  • Combina tutti e tre in un'unica generazione

Coerenza dei personaggi

  • Preservazione di volto, abbigliamento ed espressione tra le inquadrature
  • Coerenza degli elementi del brand (loghi, colori, tipografia)
  • Coerenza dello stile della scena (illuminazione, atmosfera)

Replicazione di camera e movimento

  • Replica tecniche cinematografiche specifiche da video di riferimento
  • Zoom Hitchcock, tracking orbitale, sequenze in piano-sequenza
  • Corrispondenza precisa di velocita e ritmo del movimento

Specifiche di output

  • Durata: 4-15 secondi (selezionabile)
  • Risoluzione: Fino a 2K / 1080p
  • Rapporti d'aspetto: 16:9 (orizzontale), 9:16 (verticale), 1:1 (quadrato)
  • Audio: Nativo — include sincronizzazione dei dialoghi, musica di sottofondo, effetti sonori
  • Velocita di generazione: ~30 punti per video di 15 secondi, 10 volte piu veloce della generazione precedente

Note importanti

  • Nessun volto umano reale — i caricamenti con volti umani reali chiaramente visibili vengono bloccati dalla moderazione dei contenuti
  • Qualita prima della quantita — carica solo le risorse che hanno il maggiore impatto sul risultato desiderato
  • Verifica le assegnazioni @ — passa il cursore su ogni riferimento per confermare la corretta mappatura del file
  • Casualita del modello — i risultati variano tra le generazioni; genera piu volte e scegli il migliore
  • Disponibile su: Jimeng, Doubao, Volcano Engine

Domande frequenti

Quali sono le due modalita di creazione?

Modalita Primo/Ultimo Fotogramma (un'immagine + testo) per generazioni semplici, e modalita Riferimento Tutto in Uno (fino a 12 file multimodali) per produzioni complesse.

Come funziona il sistema di riferimenti @?

Digita @ nella casella del prompt, seleziona un file caricato e descrivi il suo ruolo. Esempio: "@image1 come riferimento del personaggio, @video1 per il movimento della camera." Il modello segue le tue assegnazioni con precisione.

Quali sono i limiti di input?

Fino a 9 immagini, 3 clip video (≤15s totali), 3 file audio (≤15s totali) e testo. Massimo 12 file per generazione.

Quale output produce?

Da 4 a 15 secondi di video con risoluzione fino a 2K con audio nativo, in rapporti d'aspetto 16:9, 9:16 o 1:1.

Posso usare foto di persone reali?

No. I caricamenti con volti umani reali chiaramente visibili vengono bloccati dalla moderazione dei contenuti. Usa riferimenti di personaggi stilizzati o illustrati.


Pronto per iniziare a creare? Prova Seedance 2.0 ora — prova gratuita disponibile.