Le guide complet de Seedance 2.0 : Création vidéo IA multimodale de A à Z

Seedance 2.0 est le modèle vidéo IA multimodal de ByteDance qui génère des vidéos cinématographiques à partir de texte, d'images, de clips vidéo et d'audio. Il propose deux modes de création, un système de référence @ pour un contrôle précis des assets et une génération audio native — le tout dans un seul workflow. Voici comment utiliser chaque fonctionnalité.

Deux modes de création

Seedance 2.0 propose deux points d'entrée, chacun adapté à des workflows différents :

Mode Première/Dernière image

  • Téléchargez une image comme image d'ouverture ou de fermeture
  • Ajoutez une description textuelle du mouvement et de la scène souhaités
  • Idéal pour : animations simples, conversions image-vers-vidéo, tests rapides

Mode Référence tout-en-un (Recommandé)

  • Combinez images + clips vidéo + audio + texte en une seule génération
  • Prend en charge jusqu'à 12 fichiers de référence simultanément
  • Idéal pour : productions complexes multi-assets, clips musicaux, récits centrés sur les personnages

Spécifications d'entrée

Type d'entréeLimiteCe qu'il contrôle
ImagesJusqu'à 9Apparence des personnages, style de scène, détails produit
Clips vidéoJusqu'à 3 (total ≤15s)Mouvement de caméra, rythme d'action, effets de transition
Fichiers audioJusqu'à 3 MP3 (total ≤15s)Musique de fond, effets sonores, tonalité de la voix off
TexteLangage naturelDescription de scène, instructions d'action, ambiance

Limite totale de fichiers : 12 fichiers de référence par génération.

Le système de référence @

C'est la fonctionnalité la plus importante à maîtriser. Le système @ vous permet d'attribuer un rôle spécifique à chaque fichier téléchargé — le modèle suit vos attributions avec précision au lieu de deviner.

Comment utiliser @

  1. Téléchargez vos assets (images, vidéos, audio)
  2. Dans le champ de prompt, tapez @ pour ouvrir le sélecteur d'assets
  3. Sélectionnez un fichier et décrivez son rôle dans la génération

Exemple de prompt avec des références @

@image1 comme personnage de l'image d'ouverture,
@video1 comme référence pour le mouvement de caméra (lent travelling avant vers un gros plan),
utiliser @audio1 pour la musique de fond,
@image2 comme référence d'environnement.
Le personnage marche vers la caméra sous une lumière chaude de coucher de soleil.

Règles essentielles

  • Chaque fichier téléchargé doit être explicitement attribué avec @
  • Survolez les assets pour prévisualiser et vérifier que vous référencez le bon fichier
  • Le modèle exécute exactement ce que vous attribuez — pas de devinette

Techniques de rédaction de prompts

1. Écrivez selon la chronologie

Découpez votre prompt en segments temporels pour un contrôle précis :

  • 0–3s : "Plan large d'un horizon urbain à l'aube, lent panoramique vers la droite"
  • 4–8s : "Coupe sur plan moyen, le personnage entre par la gauche, en marchant"
  • 9–12s : "Travelling avant vers un gros plan sur le visage du personnage, arrière-plan en flou doux"

2. Utilisez un langage caméra spécifique

Le modèle comprend les termes professionnels de cinématographie :

  • Push-in / Pull-out — zoom vers ou éloignement du sujet
  • Pan — mouvement horizontal de caméra
  • Tilt — mouvement vertical de caméra
  • Tracking shot — la caméra suit le mouvement du sujet
  • Orbit — la caméra tourne autour du sujet
  • One-take — plan-séquence continu sans coupure

3. Décrivez les transitions

Lors de la création de séquences multi-plans, précisez comment les scènes s'enchaînent :

  • "Fondu de la scène extérieure vers le gros plan intérieur"
  • "Raccord de mouvement d'une pièce qui tourne vers un globe qui tourne"
  • "Transition par panoramique filé vers la scène suivante"

4. Distinguez référence et instruction

  • Référence : "@video1 pour le mouvement de caméra" — le modèle extrait et reproduit le travail de caméra
  • Instruction : "lent travelling avant du plan large au gros plan" — le modèle génère le mouvement à partir de votre description textuelle

Capacités principales

Qualité d'image

  • Mouvement physiquement réaliste (gravité, drapé des tissus, dynamique des fluides)
  • Mouvements humains et animaux fluides et naturels
  • Fidélité précise au prompt
  • Style visuel cohérent du début à la fin

Combinaison multimodale

  • Extraire le mouvement de caméra d'une vidéo de référence
  • Extraire l'apparence des personnages d'images de référence
  • Extraire le rythme musical d'un audio de référence
  • Combiner les trois en une seule génération

Cohérence des personnages

  • Préservation du visage, des vêtements et des expressions d'un plan à l'autre
  • Cohérence des éléments de marque (logos, couleurs, typographie)
  • Cohérence du style de scène (éclairage, atmosphère)

Réplication de caméra et de mouvement

  • Reproduire des techniques cinématographiques spécifiques à partir de vidéos de référence
  • Zoom Hitchcock, tracking orbital, plans-séquences
  • Correspondance précise de la vitesse et du rythme de mouvement

Spécifications de sortie

  • Durée : 4–15 secondes (sélectionnable)
  • Résolution : Jusqu'à 2K / 1080p
  • Formats d'image : 16:9 (paysage), 9:16 (portrait), 1:1 (carré)
  • Audio : Natif — inclut synchronisation des dialogues, musique de fond, effets sonores
  • Vitesse de génération : ~30 points par vidéo de 15 secondes, 10x plus rapide que la génération précédente

Notes importantes

  • Pas de vrais visages humains — les téléchargements contenant des visages humains réels clairement identifiables sont bloqués par la modération de contenu
  • Qualité plutôt que quantité — ne téléchargez que les assets ayant le plus fort impact sur le résultat souhaité
  • Vérifiez les attributions @ — survolez chaque référence d'asset pour confirmer le bon mappage de fichier
  • Variabilité du modèle — les résultats varient entre les générations ; générez plusieurs fois et choisissez le meilleur
  • Disponible sur : Jimeng (即梦), Doubao (豆包), Volcano Engine (火山引擎)

Questions fréquemment posées

Quels sont les deux modes de création ?

Le mode Première/Dernière image (une image + texte) pour les générations simples, et le mode Référence tout-en-un (jusqu'à 12 fichiers multimodaux) pour les productions complexes.

Comment fonctionne le système de référence @ ?

Tapez @ dans le champ de prompt, sélectionnez un fichier téléchargé et décrivez son rôle. Exemple : "@image1 comme référence de personnage, @video1 pour le mouvement de caméra." Le modèle suit vos attributions avec précision.

Quelles sont les limites d'entrée ?

Jusqu'à 9 images, 3 clips vidéo (≤15s au total), 3 fichiers audio (≤15s au total) et du texte. Maximum 12 fichiers par génération.

Quelle sortie produit-il ?

4–15 secondes de vidéo avec une résolution allant jusqu'à 2K et un audio natif, aux formats 16:9, 9:16 ou 1:1.

Puis-je utiliser de vraies photos de personnes ?

Non. Les téléchargements contenant des visages humains réels clairement identifiables sont bloqués par la modération de contenu. Utilisez des références de personnages stylisés ou illustrés.


Prêt à commencer à créer ? Essayez Seedance 2.0 maintenant — essai gratuit disponible.