Der komplette Leitfaden zu Seedance 2.0: Multimodale KI-Videoproduktion von Grund auf
Seedance 2.0 ist ByteDances multimodales KI-Videomodell, das filmreifes Video aus Text, Bildern, Videoclips und Audio generiert. Es bietet zwei Erstellungsmodi, ein @-Referenzsystem für präzise Asset-Steuerung und native Audiogenerierung — alles in einem Workflow. Hier erfahren Sie, wie Sie jede Funktion nutzen.
Zwei Erstellungsmodi
Seedance 2.0 bietet zwei Einstiegspunkte, die jeweils auf unterschiedliche Workflows zugeschnitten sind:
Erstes-/Letztes-Bild-Modus
- Laden Sie ein Bild als Eröffnungs- oder Schlussbild hoch
- Fügen Sie eine Textbeschreibung der gewünschten Bewegung und Szene hinzu
- Ideal für: einfache Animationen, Bild-zu-Video-Konvertierungen, schnelle Tests
All-in-One-Referenzmodus (Empfohlen)
- Kombinieren Sie Bilder + Videoclips + Audio + Text in einer einzigen Generierung
- Unterstützt bis zu 12 Referenzdateien gleichzeitig
- Ideal für: komplexe Multi-Asset-Produktionen, Musikvideos, charaktergetriebene Erzählungen
Eingabespezifikationen
| Eingabetyp | Limit | Steuerungsbereich |
|---|---|---|
| Bilder | Bis zu 9 | Erscheinungsbild der Charaktere, Szenenstil, Produktdetails |
| Videoclips | Bis zu 3 (insgesamt ≤15s) | Kamerabewegung, Aktionsrhythmus, Übergangseffekte |
| Audiodateien | Bis zu 3 MP3 (insgesamt ≤15s) | Hintergrundmusik, Soundeffekte, Sprecher-Tonalität |
| Text | Natürliche Sprache | Szenenbeschreibung, Handlungsanweisungen, Stimmung |
Gesamtlimit: 12 Referenzdateien pro Generierung.
Das @-Referenzsystem
Dies ist die wichtigste Funktion, die es zu lernen gilt. Das @-System ermöglicht es Ihnen, jeder hochgeladenen Datei eine bestimmte Rolle zuzuweisen — das Modell folgt Ihren Zuweisungen präzise, anstatt zu raten.
So verwenden Sie @
- Laden Sie Ihre Assets hoch (Bilder, Videos, Audio)
- Tippen Sie im Prompt-Feld @ ein, um die Asset-Auswahl zu öffnen
- Wählen Sie eine Datei aus und beschreiben Sie ihre Rolle in der Generierung
Beispiel-Prompt mit @-Referenzen
@image1 als Eröffnungsbild-Charakter,
@video1 als Referenz für die Kamerabewegung (langsames Heranfahren zur Nahaufnahme),
@audio1 für Hintergrundmusik verwenden,
@image2 als Umgebungsreferenz.
Der Charakter geht unter warmem Sonnenuntergangslicht auf die Kamera zu.
Wichtige Regeln
- Jede hochgeladene Datei sollte explizit mit @ zugewiesen werden
- Bewegen Sie den Mauszeiger über Assets, um eine Vorschau zu sehen und zu überprüfen, dass Sie die richtige Datei referenzieren
- Das Modell führt exakt das aus, was Sie zuweisen — kein Raten
Techniken zur Prompt-Formulierung
1. Schreiben nach Zeitachse
Unterteilen Sie Ihren Prompt in Zeitsegmente für präzise Kontrolle:
- 0–3s: "Totale einer Stadtsilhouette bei Morgendämmerung, langsamer Schwenk nach rechts"
- 4–8s: "Schnitt auf halbnahe Einstellung, Charakter betritt das Bild von links, gehend"
- 9–12s: "Heranfahren auf Nahaufnahme des Gesichts des Charakters, weicher Hintergrundfokus"
2. Verwenden Sie spezifische Kamerasprache
Das Modell versteht professionelle Kinematografie-Begriffe:
- Push-in / Pull-out — Heran- oder Wegzoomen vom Motiv
- Pan — horizontale Kamerabewegung
- Tilt — vertikale Kamerabewegung
- Tracking shot — Kamera folgt der Bewegung des Motivs
- Orbit — Kamera kreist um das Motiv
- One-take — durchgehende, ununterbrochene Aufnahme
3. Beschreiben Sie Übergänge
Wenn Sie Sequenzen mit mehreren Einstellungen erstellen, geben Sie an, wie die Szenen verbunden werden:
- "Überblendung von der Außenszene zur Nahaufnahme im Innenraum"
- "Match Cut von drehender Münze zu drehendem Globus"
- "Reißschwenk-Übergang zur nächsten Szene"
4. Unterscheiden Sie Referenz und Anweisung
- Referenz: "@video1 für Kamerabewegung" — das Modell extrahiert und repliziert die Kameraführung
- Anweisung: "langsames Heranfahren von der Totale zur Nahaufnahme" — das Modell generiert die Bewegung aus Ihrer Textbeschreibung
Kernfähigkeiten
Bildqualität
- Physikalisch korrekte Bewegung (Schwerkraft, Stofffall, Fluiddynamik)
- Geschmeidige, natürliche Bewegungen von Menschen und Tieren
- Präzise Prompt-Befolgung
- Durchgehend konsistenter visueller Stil
Multimodale Kombination
- Kamerabewegung aus einem Referenzvideo extrahieren
- Erscheinungsbild von Charakteren aus Referenzbildern extrahieren
- Musikalischen Rhythmus aus Referenzaudio extrahieren
- Alle drei in einer einzigen Generierung kombinieren
Charakterkonsistenz
- Gesicht, Kleidung und Mimik bleiben über Einstellungen hinweg erhalten
- Markenelement-Konsistenz (Logos, Farben, Typografie)
- Szenenstil-Konsistenz (Beleuchtung, Atmosphäre)
Kamera- und Bewegungsreplikation
- Spezifische Kinematografie-Techniken aus Referenzvideos replizieren
- Hitchcock-Zoom, Orbit-Tracking, One-take-Sequenzen
- Präzise Anpassung von Bewegungsgeschwindigkeit und -rhythmus
Ausgabespezifikationen
- Dauer: 4–15 Sekunden (wählbar)
- Auflösung: Bis zu 2K / 1080p
- Seitenverhältnisse: 16:9 (Querformat), 9:16 (Hochformat), 1:1 (Quadrat)
- Audio: Nativ — umfasst Dialogsynchronisation, Hintergrundmusik, Soundeffekte
- Generierungsgeschwindigkeit: ~30 Punkte pro 15-Sekunden-Video, 10x schneller als die vorherige Generation
Wichtige Hinweise
- Keine echten menschlichen Gesichter — Uploads mit klar erkennbaren realen menschlichen Gesichtern werden durch die Inhaltsmoderation blockiert
- Qualität vor Quantität — laden Sie nur die Assets hoch, die den stärksten Einfluss auf Ihr gewünschtes Ergebnis haben
- @-Zuweisungen überprüfen — bewegen Sie den Mauszeiger über jede Asset-Referenz, um die korrekte Dateizuordnung zu bestätigen
- Modell-Zufälligkeit — Ergebnisse variieren zwischen Generierungen; generieren Sie mehrfach und wählen Sie das beste Ergebnis
- Verfügbar auf: Jimeng (即梦), Doubao (豆包), Volcano Engine (火山引擎)
Häufig gestellte Fragen
Welche zwei Erstellungsmodi gibt es?
Der Erstes-/Letztes-Bild-Modus (ein Bild + Text) für einfache Generierungen und der All-in-One-Referenzmodus (bis zu 12 multimodale Dateien) für komplexe Produktionen.
Wie funktioniert das @-Referenzsystem?
Tippen Sie @ in das Prompt-Feld, wählen Sie eine hochgeladene Datei aus und beschreiben Sie ihre Rolle. Beispiel: "@image1 als Charakterreferenz, @video1 für Kamerabewegung." Das Modell folgt Ihren Zuweisungen präzise.
Welche Eingabelimits gibt es?
Bis zu 9 Bilder, 3 Videoclips (≤15s insgesamt), 3 Audiodateien (≤15s insgesamt) und Text. Maximal 12 Dateien pro Generierung.
Welche Ausgabe wird erzeugt?
4–15 Sekunden Video mit bis zu 2K Auflösung und nativem Audio, in den Seitenverhältnissen 16:9, 9:16 oder 1:1.
Kann ich echte menschliche Fotos verwenden?
Nein. Uploads mit klar erkennbaren realen menschlichen Gesichtern werden durch die Inhaltsmoderation blockiert. Verwenden Sie stilisierte oder illustrierte Charakterreferenzen.
Bereit, mit der Erstellung zu beginnen? Probieren Sie Seedance 2.0 jetzt aus — kostenlose Testversion verfügbar.