Seedance 2.0 完全ガイド:マルチモーダルAI動画生成をゼロから学ぶ
Seedance 2.0はByteDanceが開発したマルチモーダルAI動画モデルで、テキスト・画像・動画クリップ・音声から映画品質の動画を生成します。2つの作成モード、アセットを精密に制御する@参照システム、ネイティブ音声生成機能を1つのワークフローに統合しています。ここでは全機能の使い方を解説します。
2つの作成モード
Seedance 2.0には、異なるワークフローに適した2つのエントリーポイントがあります。
最初/最後フレームモード
- 画像1枚をオープニングまたはエンディングフレームとしてアップロード
- 希望するモーションやシーンのテキスト説明を追加
- 最適な用途:シンプルなアニメーション、画像から動画への変換、クイックテスト
オールインワン参照モード(推奨)
- 画像+動画クリップ+音声+テキストを1回の生成で組み合わせ
- 最大12ファイルを同時に参照可能
- 最適な用途:複雑なマルチアセット制作、ミュージックビデオ、キャラクター主導のナラティブ
入力仕様
| 入力タイプ | 制限 | 制御対象 |
|---|---|---|
| 画像 | 最大9枚 | キャラクターの外見、シーンスタイル、プロダクトの詳細 |
| 動画クリップ | 最大3本(合計15秒以下) | カメラワーク、アクションリズム、トランジション効果 |
| 音声ファイル | MP3で最大3ファイル(合計15秒以下) | BGM、効果音、ナレーションのトーン |
| テキスト | 自然言語 | シーン説明、アクション指示、雰囲気 |
ファイル上限:1回の生成につき12ファイルまで。
@参照システム
これは最も重要な機能です。@システムを使うと、アップロードした各ファイルに特定の役割を割り当てることができ、モデルは推測ではなく指定どおりに正確に実行します。
@の使い方
- アセット(画像、動画、音声)をアップロード
- プロンプトボックスで**@**を入力してアセットピッカーを開く
- ファイルを選択し、生成における役割を記述
@参照を使ったプロンプト例
@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.
重要なルール
- アップロードした全ファイルを@で明示的に割り当てる
- アセットにホバーしてプレビューし、正しいファイルを参照しているか確認
- モデルは割り当てた内容をそのまま実行する — 推測はしない
プロンプト記述テクニック
1. タイムライン形式で記述
プロンプトを時間セグメントに分割して精密にコントロール:
- 0〜3秒:"Wide shot of a city skyline at dawn, slow pan right"(夜明けの都市スカイラインをワイドショットで、ゆっくり右パン)
- 4〜8秒:"Cut to medium shot, character enters from the left, walking"(ミディアムショットにカット、キャラクターが左から歩いて登場)
- 9〜12秒:"Push-in to close-up on character's face, soft focus background"(キャラクターの顔にプッシュインでクローズアップ、背景はソフトフォーカス)
2. 具体的なカメラ用語を使う
モデルはプロの撮影用語を理解します:
- Push-in / Pull-out — 被写体に寄る、または離れるズーム
- Pan — カメラの水平移動
- Tilt — カメラの垂直移動
- Tracking shot — 被写体の動きにカメラが追従
- Orbit — 被写体の周囲をカメラが回る
- One-take — 途切れのない連続ショット
3. トランジションを記述する
マルチショットのシーケンスを作成する場合、シーンの接続方法を指定:
- "Fade from outdoor scene to indoor close-up"(屋外シーンから屋内クローズアップへフェード)
- "Match cut from spinning coin to spinning globe"(回転するコインから回転する地球儀へマッチカット)
- "Whip pan transition to the next scene"(ウィップパンで次のシーンへ移行)
4. 参照と指示を区別する
- 参照:"@video1 for camera movement" — モデルがカメラワークを抽出して再現
- 指示:"slow push-in from wide to close-up" — テキストの説明からモデルが動きを生成
コア機能
画質
- 物理法則に基づくモーション(重力、布のドレープ、流体力学)
- 人間や動物の滑らかで自然な動き
- プロンプトへの正確な準拠
- 全体を通じた一貫したビジュアルスタイル
マルチモーダル合成
- 参照動画からカメラワークを抽出
- 参照画像からキャラクターの外見を抽出
- 参照音声から音楽のリズムを抽出
- 3つすべてを1回の生成で統合
キャラクターの一貫性
- ショット間での顔、服装、表情の保持
- ブランド要素の一貫性(ロゴ、カラー、タイポグラフィ)
- シーンスタイルの一貫性(ライティング、雰囲気)
カメラとモーションの再現
- 参照動画から特定の撮影技法を再現
- ヒッチコックズーム、オービットトラッキング、ワンテイクシーケンス
- モーションの速度とリズムの精密なマッチング
出力仕様
- 尺:4〜15秒(選択可能)
- 解像度:最大2K / 1080p
- アスペクト比:16:9(横長)、9:16(縦長)、1:1(正方形)
- 音声:ネイティブ対応 — セリフ同期、BGM、効果音を含む
- 生成速度:15秒動画あたり約30ポイント、前世代比10倍高速
重要な注意事項
- 実在の人物の顔は不可 — 実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロック
- 量より質 — 出力に最も影響するアセットのみをアップロード
- @の割り当てを確認 — 各アセット参照にホバーして正しいファイルマッピングを確認
- モデルのランダム性 — 生成ごとに結果が異なるため、複数回生成して最良のものを選択
- 利用可能なプラットフォーム:Jimeng(即梦)、Doubao(豆包)、Volcano Engine(火山引擎)
よくある質問
2つの作成モードとは?
最初/最後フレームモード(画像1枚+テキスト)はシンプルな生成向け、オールインワン参照モード(最大12ファイルのマルチモーダル入力)は複雑な制作向けです。
@参照システムはどのように機能しますか?
プロンプトボックスで@を入力し、アップロード済みファイルを選択して役割を記述します。例:「@image1をキャラクター参照、@video1でカメラワーク参照」。モデルは指定どおりに正確に実行します。
入力制限は?
画像最大9枚、動画クリップ3本(合計15秒以下)、音声ファイル3ファイル(合計15秒以下)、テキスト。1回の生成につき最大12ファイル。
どのような出力が得られますか?
最大2K解像度でネイティブ音声付きの4〜15秒動画。アスペクト比は16:9、9:16、1:1に対応。
実在の人物の写真は使えますか?
いいえ。実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロックされます。スタイライズまたはイラストのキャラクター参照画像をご使用ください。
さっそく制作を始めましょう。Seedance 2.0を試す — 無料トライアルあり。