Seedance 2.0 完全ガイド:マルチモーダルAI動画生成をゼロから学ぶ

Seedance 2.0はByteDanceが開発したマルチモーダルAI動画モデルで、テキスト・画像・動画クリップ・音声から映画品質の動画を生成します。2つの作成モード、アセットを精密に制御する@参照システム、ネイティブ音声生成機能を1つのワークフローに統合しています。ここでは全機能の使い方を解説します。

2つの作成モード

Seedance 2.0には、異なるワークフローに適した2つのエントリーポイントがあります。

最初/最後フレームモード

  • 画像1枚をオープニングまたはエンディングフレームとしてアップロード
  • 希望するモーションやシーンのテキスト説明を追加
  • 最適な用途:シンプルなアニメーション、画像から動画への変換、クイックテスト

オールインワン参照モード(推奨)

  • 画像+動画クリップ+音声+テキストを1回の生成で組み合わせ
  • 最大12ファイルを同時に参照可能
  • 最適な用途:複雑なマルチアセット制作、ミュージックビデオ、キャラクター主導のナラティブ

入力仕様

入力タイプ制限制御対象
画像最大9枚キャラクターの外見、シーンスタイル、プロダクトの詳細
動画クリップ最大3本(合計15秒以下)カメラワーク、アクションリズム、トランジション効果
音声ファイルMP3で最大3ファイル(合計15秒以下)BGM、効果音、ナレーションのトーン
テキスト自然言語シーン説明、アクション指示、雰囲気

ファイル上限:1回の生成につき12ファイルまで。

@参照システム

これは最も重要な機能です。@システムを使うと、アップロードした各ファイルに特定の役割を割り当てることができ、モデルは推測ではなく指定どおりに正確に実行します。

@の使い方

  1. アセット(画像、動画、音声)をアップロード
  2. プロンプトボックスで**@**を入力してアセットピッカーを開く
  3. ファイルを選択し、生成における役割を記述

@参照を使ったプロンプト例

@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.

重要なルール

  • アップロードした全ファイルを@で明示的に割り当て
  • アセットにホバーしてプレビューし、正しいファイルを参照しているか確認
  • モデルは割り当てた内容をそのまま実行する — 推測はしない

プロンプト記述テクニック

1. タイムライン形式で記述

プロンプトを時間セグメントに分割して精密にコントロール:

  • 0〜3秒:"Wide shot of a city skyline at dawn, slow pan right"(夜明けの都市スカイラインをワイドショットで、ゆっくり右パン)
  • 4〜8秒:"Cut to medium shot, character enters from the left, walking"(ミディアムショットにカット、キャラクターが左から歩いて登場)
  • 9〜12秒:"Push-in to close-up on character's face, soft focus background"(キャラクターの顔にプッシュインでクローズアップ、背景はソフトフォーカス)

2. 具体的なカメラ用語を使う

モデルはプロの撮影用語を理解します:

  • Push-in / Pull-out — 被写体に寄る、または離れるズーム
  • Pan — カメラの水平移動
  • Tilt — カメラの垂直移動
  • Tracking shot — 被写体の動きにカメラが追従
  • Orbit — 被写体の周囲をカメラが回る
  • One-take — 途切れのない連続ショット

3. トランジションを記述する

マルチショットのシーケンスを作成する場合、シーンの接続方法を指定:

  • "Fade from outdoor scene to indoor close-up"(屋外シーンから屋内クローズアップへフェード)
  • "Match cut from spinning coin to spinning globe"(回転するコインから回転する地球儀へマッチカット)
  • "Whip pan transition to the next scene"(ウィップパンで次のシーンへ移行)

4. 参照と指示を区別する

  • 参照:"@video1 for camera movement" — モデルがカメラワークを抽出して再現
  • 指示:"slow push-in from wide to close-up" — テキストの説明からモデルが動きを生成

コア機能

画質

  • 物理法則に基づくモーション(重力、布のドレープ、流体力学)
  • 人間や動物の滑らかで自然な動き
  • プロンプトへの正確な準拠
  • 全体を通じた一貫したビジュアルスタイル

マルチモーダル合成

  • 参照動画からカメラワークを抽出
  • 参照画像からキャラクターの外見を抽出
  • 参照音声から音楽のリズムを抽出
  • 3つすべてを1回の生成で統合

キャラクターの一貫性

  • ショット間での顔、服装、表情の保持
  • ブランド要素の一貫性(ロゴ、カラー、タイポグラフィ)
  • シーンスタイルの一貫性(ライティング、雰囲気)

カメラとモーションの再現

  • 参照動画から特定の撮影技法を再現
  • ヒッチコックズーム、オービットトラッキング、ワンテイクシーケンス
  • モーションの速度とリズムの精密なマッチング

出力仕様

  • :4〜15秒(選択可能)
  • 解像度:最大2K / 1080p
  • アスペクト比:16:9(横長)、9:16(縦長)、1:1(正方形)
  • 音声:ネイティブ対応 — セリフ同期、BGM、効果音を含む
  • 生成速度:15秒動画あたり約30ポイント、前世代比10倍高速

重要な注意事項

  • 実在の人物の顔は不可 — 実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロック
  • 量より質 — 出力に最も影響するアセットのみをアップロード
  • @の割り当てを確認 — 各アセット参照にホバーして正しいファイルマッピングを確認
  • モデルのランダム性 — 生成ごとに結果が異なるため、複数回生成して最良のものを選択
  • 利用可能なプラットフォーム:Jimeng(即梦)、Doubao(豆包)、Volcano Engine(火山引擎)

よくある質問

2つの作成モードとは?

最初/最後フレームモード(画像1枚+テキスト)はシンプルな生成向け、オールインワン参照モード(最大12ファイルのマルチモーダル入力)は複雑な制作向けです。

@参照システムはどのように機能しますか?

プロンプトボックスで@を入力し、アップロード済みファイルを選択して役割を記述します。例:「@image1をキャラクター参照、@video1でカメラワーク参照」。モデルは指定どおりに正確に実行します。

入力制限は?

画像最大9枚、動画クリップ3本(合計15秒以下)、音声ファイル3ファイル(合計15秒以下)、テキスト。1回の生成につき最大12ファイル。

どのような出力が得られますか?

最大2K解像度でネイティブ音声付きの4〜15秒動画。アスペクト比は16:9、9:16、1:1に対応。

実在の人物の写真は使えますか?

いいえ。実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロックされます。スタイライズまたはイラストのキャラクター参照画像をご使用ください。


さっそく制作を始めましょう。Seedance 2.0を試す — 無料トライアルあり。