Den kompletta guiden till Seedance 2.0: Multimodal AI-videoproduktion från grunden

Seedance 2.0 är ByteDances multimodala AI-videomodell som genererar filmisk video från text, bilder, videoklipp och ljud. Den erbjuder två skapandelägen, ett @-referenssystem för exakt styrning av dina filer och nativ ljudgenerering — allt i ett arbetsflöde. Här är en genomgång av alla funktioner.

Två skapandelägen

Seedance 2.0 har två ingångspunkter, var och en anpassad för olika arbetsflöden:

Första/Sista bildruta-läge

  • Ladda upp en bild som öppnings- eller avslutningsruta
  • Lägg till en textbeskrivning av önskat rörelsemönster och scen
  • Bäst för: enkla animationer, bild-till-video-konverteringar, snabba tester

Allt-i-ett-referensläge (Rekommenderat)

  • Kombinera bilder + videoklipp + ljud + text i en enda generering
  • Stöder upp till 12 referensfiler samtidigt
  • Bäst för: komplexa produktioner med flera filer, musikvideor, karaktärsdrivna berättelser

Indataspecifikationer

IndatatypGränsVad det styr
BilderUpp till 9Karaktärsutseende, scenstil, produktdetaljer
VideoklippUpp till 3 (totalt ≤15s)Kamerarörelse, handlingsrytm, övergångseffekter
LjudfilerUpp till 3 MP3 (totalt ≤15s)Bakgrundsmusik, ljudeffekter, voiceover-ton
TextNaturligt språkScenbeskrivning, handlingsinstruktioner, stämning

Total filgräns: 12 referensfiler per generering.

@-referenssystemet

Detta är den viktigaste funktionen att lära sig. @-systemet låter dig tilldela en specifik roll till varje uppladdad fil — modellen följer dina tilldelningar exakt istället för att gissa.

Så här använder du @

  1. Ladda upp dina filer (bilder, videor, ljud)
  2. I promptfältet, skriv @ för att öppna filväljaren
  3. Välj en fil och beskriv dess roll i genereringen

Exempelprompt med @-referenser

@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.

Viktiga regler

  • Varje uppladdad fil bör uttryckligen tilldelas med @
  • Hovra över filer för att förhandsvisa och bekräfta att du refererar till rätt fil
  • Modellen utför exakt det du tilldelar — ingen gissning

Tekniker för promptskrivning

1. Skriv efter tidslinje

Dela upp din prompt i tidssegment för exakt kontroll:

  • 0–3s: "Vidvinkel av en stadssilhuett vid gryning, långsam panorering åt höger"
  • 4–8s: "Klipp till halvbild, karaktär kommer in från vänster, gående"
  • 9–12s: "Inkörning till närbild av karaktärens ansikte, mjuk bakgrundsoskärpa"

2. Använd specifikt kameraspråk

Modellen förstår professionella filmtermer:

  • Push-in / Pull-out — zoom mot eller bort från motivet
  • Pan — horisontell kamerarörelse
  • Tilt — vertikal kamerarörelse
  • Tracking shot — kameran följer motivets rörelse
  • Orbit — kameran cirklar runt motivet
  • One-take — kontinuerlig oavbruten tagning

3. Beskriv övergångar

När du skapar sekvenser med flera tagningar, specificera hur scenerna kopplas samman:

  • "Tona från utomhusscen till inomhus närbild"
  • "Match cut från snurrande mynt till snurrande jordglob"
  • "Whip pan-övergång till nästa scen"

4. Skilj mellan referens och instruktion

  • Referens: "@video1 for camera movement" — modellen extraherar och replikerar kameraarbetet
  • Instruktion: "slow push-in from wide to close-up" — modellen genererar rörelsen från din textbeskrivning

Kärnfunktioner

Bildkvalitet

  • Fysiskt korrekt rörelse (gravitation, tygdrapering, vätskedynamik)
  • Mjuk, naturlig rörelse för människor och djur
  • Exakt följsamhet till prompten
  • Konsekvent visuell stil genomgående

Multimodal kombination

  • Extrahera kamerarörelse från en referensvideo
  • Extrahera karaktärsutseende från referensbilder
  • Extrahera musikalisk rytm från referensljud
  • Kombinera alla tre i en enda generering

Karaktärskonsistens

  • Bevarande av ansikte, kläder och uttryck mellan tagningar
  • Konsistens i varumärkeselement (logotyper, färger, typografi)
  • Konsistens i scenstil (belysning, atmosfär)

Kamera- och rörelsereplikering

  • Replikera specifika filmtekniker från referensvideor
  • Hitchcock-zoom, orbit-tracking, one-take-sekvenser
  • Exakt matchning av rörelsehastighet och rytm

Utdataspecifikationer

  • Längd: 4–15 sekunder (valbar)
  • Upplösning: Upp till 2K / 1080p
  • Bildförhållanden: 16:9 (liggande), 9:16 (stående), 1:1 (kvadratisk)
  • Ljud: Nativt — inkluderar dialogsynkronisering, bakgrundsmusik, ljudeffekter
  • Genereringshastighet: ~30 poäng per 15-sekunders video, 10x snabbare än föregående generation

Viktiga anmärkningar

  • Inga riktiga människoansikten — uppladdningar med tydliga riktiga människoansikten blockeras av innehållsmoderering
  • Kvalitet över kvantitet — ladda bara upp filer som har störst inverkan på önskat resultat
  • Bekräfta @-tilldelningar — hovra över varje filreferens för att bekräfta korrekt filmappning
  • Modelltillfälighet — resultat varierar mellan genereringar; generera flera gånger och välj det bästa
  • Tillgänglig på: Jimeng (即梦), Doubao (豆包), Volcano Engine (火山引擎)

Vanliga frågor

Vilka är de två skapandelägena?

Första/Sista bildruta-läge (en bild + text) för enkla genereringar, och Allt-i-ett-referensläge (upp till 12 multimodala filer) för komplexa produktioner.

Hur fungerar @-referenssystemet?

Skriv @ i promptfältet, välj en uppladdad fil och beskriv dess roll. Exempel: "@image1 som karaktärsreferens, @video1 för kamerarörelse." Modellen följer dina tilldelningar exakt.

Vilka är indatabegränsningarna?

Upp till 9 bilder, 3 videoklipp (≤15s totalt), 3 ljudfiler (≤15s totalt) och text. Maximalt 12 filer per generering.

Vilken utdata producerar den?

4–15 sekunders video i upp till 2K-upplösning med nativt ljud, i bildförhållandena 16:9, 9:16 eller 1:1.

Kan jag använda riktiga människobilder?

Nej. Uppladdningar med tydliga riktiga människoansikten blockeras av innehållsmoderering. Använd stiliserade eller illustrerade karaktärsreferenser.


Redo att börja skapa? Testa Seedance 2.0 nu — gratis provperiod tillgänglig.