Le guide complet de Seedance 2.0 : Création vidéo IA multimodale de A à Z
Seedance 2.0 est le modèle vidéo IA multimodal de ByteDance qui génère des vidéos cinématographiques à partir de texte, d'images, de clips vidéo et d'audio. Il propose deux modes de création, un système de référence @ pour un contrôle précis des assets et une génération audio native — le tout dans un seul workflow. Voici comment utiliser chaque fonctionnalité.
Deux modes de création
Seedance 2.0 propose deux points d'entrée, chacun adapté à des workflows différents :
Mode Première/Dernière image
- Téléchargez une image comme image d'ouverture ou de fermeture
- Ajoutez une description textuelle du mouvement et de la scène souhaités
- Idéal pour : animations simples, conversions image-vers-vidéo, tests rapides
Mode Référence tout-en-un (Recommandé)
- Combinez images + clips vidéo + audio + texte en une seule génération
- Prend en charge jusqu'à 12 fichiers de référence simultanément
- Idéal pour : productions complexes multi-assets, clips musicaux, récits centrés sur les personnages
Spécifications d'entrée
| Type d'entrée | Limite | Ce qu'il contrôle |
|---|---|---|
| Images | Jusqu'à 9 | Apparence des personnages, style de scène, détails produit |
| Clips vidéo | Jusqu'à 3 (total ≤15s) | Mouvement de caméra, rythme d'action, effets de transition |
| Fichiers audio | Jusqu'à 3 MP3 (total ≤15s) | Musique de fond, effets sonores, tonalité de la voix off |
| Texte | Langage naturel | Description de scène, instructions d'action, ambiance |
Limite totale de fichiers : 12 fichiers de référence par génération.
Le système de référence @
C'est la fonctionnalité la plus importante à maîtriser. Le système @ vous permet d'attribuer un rôle spécifique à chaque fichier téléchargé — le modèle suit vos attributions avec précision au lieu de deviner.
Comment utiliser @
- Téléchargez vos assets (images, vidéos, audio)
- Dans le champ de prompt, tapez @ pour ouvrir le sélecteur d'assets
- Sélectionnez un fichier et décrivez son rôle dans la génération
Exemple de prompt avec des références @
@image1 comme personnage de l'image d'ouverture,
@video1 comme référence pour le mouvement de caméra (lent travelling avant vers un gros plan),
utiliser @audio1 pour la musique de fond,
@image2 comme référence d'environnement.
Le personnage marche vers la caméra sous une lumière chaude de coucher de soleil.
Règles essentielles
- Chaque fichier téléchargé doit être explicitement attribué avec @
- Survolez les assets pour prévisualiser et vérifier que vous référencez le bon fichier
- Le modèle exécute exactement ce que vous attribuez — pas de devinette
Techniques de rédaction de prompts
1. Écrivez selon la chronologie
Découpez votre prompt en segments temporels pour un contrôle précis :
- 0–3s : "Plan large d'un horizon urbain à l'aube, lent panoramique vers la droite"
- 4–8s : "Coupe sur plan moyen, le personnage entre par la gauche, en marchant"
- 9–12s : "Travelling avant vers un gros plan sur le visage du personnage, arrière-plan en flou doux"
2. Utilisez un langage caméra spécifique
Le modèle comprend les termes professionnels de cinématographie :
- Push-in / Pull-out — zoom vers ou éloignement du sujet
- Pan — mouvement horizontal de caméra
- Tilt — mouvement vertical de caméra
- Tracking shot — la caméra suit le mouvement du sujet
- Orbit — la caméra tourne autour du sujet
- One-take — plan-séquence continu sans coupure
3. Décrivez les transitions
Lors de la création de séquences multi-plans, précisez comment les scènes s'enchaînent :
- "Fondu de la scène extérieure vers le gros plan intérieur"
- "Raccord de mouvement d'une pièce qui tourne vers un globe qui tourne"
- "Transition par panoramique filé vers la scène suivante"
4. Distinguez référence et instruction
- Référence : "@video1 pour le mouvement de caméra" — le modèle extrait et reproduit le travail de caméra
- Instruction : "lent travelling avant du plan large au gros plan" — le modèle génère le mouvement à partir de votre description textuelle
Capacités principales
Qualité d'image
- Mouvement physiquement réaliste (gravité, drapé des tissus, dynamique des fluides)
- Mouvements humains et animaux fluides et naturels
- Fidélité précise au prompt
- Style visuel cohérent du début à la fin
Combinaison multimodale
- Extraire le mouvement de caméra d'une vidéo de référence
- Extraire l'apparence des personnages d'images de référence
- Extraire le rythme musical d'un audio de référence
- Combiner les trois en une seule génération
Cohérence des personnages
- Préservation du visage, des vêtements et des expressions d'un plan à l'autre
- Cohérence des éléments de marque (logos, couleurs, typographie)
- Cohérence du style de scène (éclairage, atmosphère)
Réplication de caméra et de mouvement
- Reproduire des techniques cinématographiques spécifiques à partir de vidéos de référence
- Zoom Hitchcock, tracking orbital, plans-séquences
- Correspondance précise de la vitesse et du rythme de mouvement
Spécifications de sortie
- Durée : 4–15 secondes (sélectionnable)
- Résolution : Jusqu'à 2K / 1080p
- Formats d'image : 16:9 (paysage), 9:16 (portrait), 1:1 (carré)
- Audio : Natif — inclut synchronisation des dialogues, musique de fond, effets sonores
- Vitesse de génération : ~30 points par vidéo de 15 secondes, 10x plus rapide que la génération précédente
Notes importantes
- Pas de vrais visages humains — les téléchargements contenant des visages humains réels clairement identifiables sont bloqués par la modération de contenu
- Qualité plutôt que quantité — ne téléchargez que les assets ayant le plus fort impact sur le résultat souhaité
- Vérifiez les attributions @ — survolez chaque référence d'asset pour confirmer le bon mappage de fichier
- Variabilité du modèle — les résultats varient entre les générations ; générez plusieurs fois et choisissez le meilleur
- Disponible sur : Jimeng (即梦), Doubao (豆包), Volcano Engine (火山引擎)
Questions fréquemment posées
Quels sont les deux modes de création ?
Le mode Première/Dernière image (une image + texte) pour les générations simples, et le mode Référence tout-en-un (jusqu'à 12 fichiers multimodaux) pour les productions complexes.
Comment fonctionne le système de référence @ ?
Tapez @ dans le champ de prompt, sélectionnez un fichier téléchargé et décrivez son rôle. Exemple : "@image1 comme référence de personnage, @video1 pour le mouvement de caméra." Le modèle suit vos attributions avec précision.
Quelles sont les limites d'entrée ?
Jusqu'à 9 images, 3 clips vidéo (≤15s au total), 3 fichiers audio (≤15s au total) et du texte. Maximum 12 fichiers par génération.
Quelle sortie produit-il ?
4–15 secondes de vidéo avec une résolution allant jusqu'à 2K et un audio natif, aux formats 16:9, 9:16 ou 1:1.
Puis-je utiliser de vraies photos de personnes ?
Non. Les téléchargements contenant des visages humains réels clairement identifiables sont bloqués par la modération de contenu. Utilisez des références de personnages stylisés ou illustrés.
Prêt à commencer à créer ? Essayez Seedance 2.0 maintenant — essai gratuit disponible.