Welche zwei Erstellungsmodi bietet Seedance 2.0?

Seedance 2.0 bietet zwei Modi: den Erstes-/Letztes-Bild-Modus (ein Bild hochladen + Textbeschreibung für einfache Generierungen) und den All-in-One-Referenzmodus (bis zu 12 Dateien aus Bildern, Videos, Audio und Text kombinieren für maximale kreative Kontrolle).

Wie funktioniert das @-Referenzsystem in Seedance 2.0?

Tippen Sie @ in das Prompt-Feld, um die Asset-Liste zu öffnen, und weisen Sie jeder hochgeladenen Datei eine bestimmte Rolle zu. Beispiel: '@image1 als Eröffnungsbild, @video1 als Referenz für die Kamerabewegung, @audio1 für Hintergrundmusik verwenden'. Das Modell folgt Ihren Zuweisungen präzise, anstatt zu raten.

Welche Eingabelimits gelten für Seedance 2.0?

Bis zu 9 Bilder, 3 Videoclips (insgesamt ≤15 Sekunden), 3 Audiodateien im MP3-Format (insgesamt ≤15 Sekunden) und Text-Prompts. Maximal 12 Referenzdateien pro Generierung.

Welche Videoausgabe liefert Seedance 2.0?

4 bis 15 Sekunden Video mit bis zu 2K Auflösung und nativem Audio (Dialog, Musik, Soundeffekte). Unterstützte Seitenverhältnisse: 16:9, 9:16 und 1:1.

Kann ich echte menschliche Gesichtsfotos bei Seedance 2.0 hochladen?

Nein. Seedance 2.0 erlaubt keine Uploads mit klar erkennbaren realen menschlichen Gesichtern — diese werden durch die Inhaltsmoderation des Systems blockiert. Verwenden Sie stattdessen illustrierte oder stilisierte Charakterreferenzen.

Der komplette Leitfaden zu Seedance 2.0: Multimodale KI-Videoproduktion von Grund auf

February 12, 2026

Seedance 2.0 ist ByteDances multimodales KI-Videomodell, das filmreifes Video aus Text, Bildern, Videoclips und Audio generiert. Es bietet zwei Erstellungsmodi, ein @-Referenzsystem für präzise Asset-Steuerung und native Audiogenerierung — alles in einem Workflow. Hier erfahren Sie, wie Sie jede Funktion nutzen.

Zwei Erstellungsmodi

Seedance 2.0 bietet zwei Einstiegspunkte, die jeweils auf unterschiedliche Workflows zugeschnitten sind:

Erstes-/Letztes-Bild-Modus

Laden Sie ein Bild als Eröffnungs- oder Schlussbild hoch
Fügen Sie eine Textbeschreibung der gewünschten Bewegung und Szene hinzu
Ideal für: einfache Animationen, Bild-zu-Video-Konvertierungen, schnelle Tests

All-in-One-Referenzmodus (Empfohlen)

Kombinieren Sie Bilder + Videoclips + Audio + Text in einer einzigen Generierung
Unterstützt bis zu 12 Referenzdateien gleichzeitig
Ideal für: komplexe Multi-Asset-Produktionen, Musikvideos, charaktergetriebene Erzählungen

Eingabespezifikationen

Eingabetyp	Limit	Steuerungsbereich
Bilder	Bis zu 9	Erscheinungsbild der Charaktere, Szenenstil, Produktdetails
Videoclips	Bis zu 3 (insgesamt ≤15s)	Kamerabewegung, Aktionsrhythmus, Übergangseffekte
Audiodateien	Bis zu 3 MP3 (insgesamt ≤15s)	Hintergrundmusik, Soundeffekte, Sprecher-Tonalität
Text	Natürliche Sprache	Szenenbeschreibung, Handlungsanweisungen, Stimmung

Gesamtlimit: 12 Referenzdateien pro Generierung.

Das @-Referenzsystem

Dies ist die wichtigste Funktion, die es zu lernen gilt. Das @-System ermöglicht es Ihnen, jeder hochgeladenen Datei eine bestimmte Rolle zuzuweisen — das Modell folgt Ihren Zuweisungen präzise, anstatt zu raten.

So verwenden Sie @

Laden Sie Ihre Assets hoch (Bilder, Videos, Audio)
Tippen Sie im Prompt-Feld @ ein, um die Asset-Auswahl zu öffnen
Wählen Sie eine Datei aus und beschreiben Sie ihre Rolle in der Generierung

Beispiel-Prompt mit @-Referenzen

@image1 als Eröffnungsbild-Charakter,
@video1 als Referenz für die Kamerabewegung (langsames Heranfahren zur Nahaufnahme),
@audio1 für Hintergrundmusik verwenden,
@image2 als Umgebungsreferenz.
Der Charakter geht unter warmem Sonnenuntergangslicht auf die Kamera zu.

Wichtige Regeln

Jede hochgeladene Datei sollte explizit mit @ zugewiesen werden
Bewegen Sie den Mauszeiger über Assets, um eine Vorschau zu sehen und zu überprüfen, dass Sie die richtige Datei referenzieren
Das Modell führt exakt das aus, was Sie zuweisen — kein Raten

Techniken zur Prompt-Formulierung

1. Schreiben nach Zeitachse

Unterteilen Sie Ihren Prompt in Zeitsegmente für präzise Kontrolle:

0–3s: "Totale einer Stadtsilhouette bei Morgendämmerung, langsamer Schwenk nach rechts"
4–8s: "Schnitt auf halbnahe Einstellung, Charakter betritt das Bild von links, gehend"
9–12s: "Heranfahren auf Nahaufnahme des Gesichts des Charakters, weicher Hintergrundfokus"

2. Verwenden Sie spezifische Kamerasprache

Das Modell versteht professionelle Kinematografie-Begriffe:

Push-in / Pull-out — Heran- oder Wegzoomen vom Motiv
Pan — horizontale Kamerabewegung
Tilt — vertikale Kamerabewegung
Tracking shot — Kamera folgt der Bewegung des Motivs
Orbit — Kamera kreist um das Motiv
One-take — durchgehende, ununterbrochene Aufnahme

3. Beschreiben Sie Übergänge

Wenn Sie Sequenzen mit mehreren Einstellungen erstellen, geben Sie an, wie die Szenen verbunden werden:

"Überblendung von der Außenszene zur Nahaufnahme im Innenraum"
"Match Cut von drehender Münze zu drehendem Globus"
"Reißschwenk-Übergang zur nächsten Szene"

4. Unterscheiden Sie Referenz und Anweisung

Referenz: "@video1 für Kamerabewegung" — das Modell extrahiert und repliziert die Kameraführung
Anweisung: "langsames Heranfahren von der Totale zur Nahaufnahme" — das Modell generiert die Bewegung aus Ihrer Textbeschreibung

Kernfähigkeiten

Bildqualität

Physikalisch korrekte Bewegung (Schwerkraft, Stofffall, Fluiddynamik)
Geschmeidige, natürliche Bewegungen von Menschen und Tieren
Präzise Prompt-Befolgung
Durchgehend konsistenter visueller Stil

Multimodale Kombination

Kamerabewegung aus einem Referenzvideo extrahieren
Erscheinungsbild von Charakteren aus Referenzbildern extrahieren
Musikalischen Rhythmus aus Referenzaudio extrahieren
Alle drei in einer einzigen Generierung kombinieren

Charakterkonsistenz

Gesicht, Kleidung und Mimik bleiben über Einstellungen hinweg erhalten
Markenelement-Konsistenz (Logos, Farben, Typografie)
Szenenstil-Konsistenz (Beleuchtung, Atmosphäre)

Kamera- und Bewegungsreplikation

Spezifische Kinematografie-Techniken aus Referenzvideos replizieren
Hitchcock-Zoom, Orbit-Tracking, One-take-Sequenzen
Präzise Anpassung von Bewegungsgeschwindigkeit und -rhythmus

Ausgabespezifikationen

Dauer: 4–15 Sekunden (wählbar)
Auflösung: Bis zu 2K / 1080p
Seitenverhältnisse: 16:9 (Querformat), 9:16 (Hochformat), 1:1 (Quadrat)
Audio: Nativ — umfasst Dialogsynchronisation, Hintergrundmusik, Soundeffekte
Generierungsgeschwindigkeit: ~30 Punkte pro 15-Sekunden-Video, 10x schneller als die vorherige Generation

Wichtige Hinweise

Keine echten menschlichen Gesichter — Uploads mit klar erkennbaren realen menschlichen Gesichtern werden durch die Inhaltsmoderation blockiert
Qualität vor Quantität — laden Sie nur die Assets hoch, die den stärksten Einfluss auf Ihr gewünschtes Ergebnis haben
@-Zuweisungen überprüfen — bewegen Sie den Mauszeiger über jede Asset-Referenz, um die korrekte Dateizuordnung zu bestätigen
Modell-Zufälligkeit — Ergebnisse variieren zwischen Generierungen; generieren Sie mehrfach und wählen Sie das beste Ergebnis
Verfügbar auf: Jimeng (即梦), Doubao (豆包), Volcano Engine (火山引擎)

Häufig gestellte Fragen

Welche zwei Erstellungsmodi gibt es?

Der Erstes-/Letztes-Bild-Modus (ein Bild + Text) für einfache Generierungen und der All-in-One-Referenzmodus (bis zu 12 multimodale Dateien) für komplexe Produktionen.

Wie funktioniert das @-Referenzsystem?

Tippen Sie @ in das Prompt-Feld, wählen Sie eine hochgeladene Datei aus und beschreiben Sie ihre Rolle. Beispiel: "@image1 als Charakterreferenz, @video1 für Kamerabewegung." Das Modell folgt Ihren Zuweisungen präzise.

Welche Eingabelimits gibt es?

Bis zu 9 Bilder, 3 Videoclips (≤15s insgesamt), 3 Audiodateien (≤15s insgesamt) und Text. Maximal 12 Dateien pro Generierung.

Welche Ausgabe wird erzeugt?

4–15 Sekunden Video mit bis zu 2K Auflösung und nativem Audio, in den Seitenverhältnissen 16:9, 9:16 oder 1:1.

Kann ich echte menschliche Fotos verwenden?

Nein. Uploads mit klar erkennbaren realen menschlichen Gesichtern werden durch die Inhaltsmoderation blockiert. Verwenden Sie stilisierte oder illustrierte Charakterreferenzen.

Bereit, mit der Erstellung zu beginnen? Probieren Sie Seedance 2.0 jetzt aus — kostenlose Testversion verfügbar.