Seedance 2.0の2つの作成モードとは？

Seedance 2.0には2つのモードがあります。最初/最後フレームモード（画像1枚＋テキスト説明でシンプルに生成）と、オールインワン参照モード（画像・動画・音声・テキストを最大12ファイルまで組み合わせて最大限のクリエイティブコントロールを実現）です。

Seedance 2.0の@参照システムはどのように機能しますか？

プロンプトボックスで@を入力するとアセット一覧が表示され、アップロードした各ファイルに特定の役割を割り当てられます。例：「@image1をオープニングフレーム、@video1のカメラワークを参照、@audio1をBGMに使用」。モデルは推測ではなく、指定された割り当てに正確に従います。

Seedance 2.0の入力制限は？

画像は最大9枚、動画クリップは最大3本（合計15秒以下）、音声ファイルはMP3形式で最大3ファイル（合計15秒以下）、テキストプロンプト。1回の生成につき最大12ファイルまで参照可能です。

Seedance 2.0はどのような動画を出力しますか？

最大2K解像度で4〜15秒の動画を生成し、ネイティブ音声（セリフ、音楽、効果音）を含みます。対応アスペクト比は16:9、9:16、1:1です。

Seedance 2.0に実在の人物の顔写真をアップロードできますか？

いいえ。Seedance 2.0では実在の人物の顔がはっきり写った画像のアップロードは、コンテンツモデレーションによりブロックされます。イラストやスタイライズされたキャラクター参照画像をご使用ください。

Seedance 2.0 完全ガイド：マルチモーダルAI動画生成をゼロから学ぶ

February 12, 2026

Seedance 2.0はByteDanceが開発したマルチモーダルAI動画モデルで、テキスト・画像・動画クリップ・音声から映画品質の動画を生成します。2つの作成モード、アセットを精密に制御する@参照システム、ネイティブ音声生成機能を1つのワークフローに統合しています。ここでは全機能の使い方を解説します。

2つの作成モード

Seedance 2.0には、異なるワークフローに適した2つのエントリーポイントがあります。

最初/最後フレームモード

画像1枚をオープニングまたはエンディングフレームとしてアップロード
希望するモーションやシーンのテキスト説明を追加
最適な用途：シンプルなアニメーション、画像から動画への変換、クイックテスト

オールインワン参照モード（推奨）

画像＋動画クリップ＋音声＋テキストを1回の生成で組み合わせ
最大12ファイルを同時に参照可能
最適な用途：複雑なマルチアセット制作、ミュージックビデオ、キャラクター主導のナラティブ

入力仕様

入力タイプ	制限	制御対象
画像	最大9枚	キャラクターの外見、シーンスタイル、プロダクトの詳細
動画クリップ	最大3本（合計15秒以下）	カメラワーク、アクションリズム、トランジション効果
音声ファイル	MP3で最大3ファイル（合計15秒以下）	BGM、効果音、ナレーションのトーン
テキスト	自然言語	シーン説明、アクション指示、雰囲気

ファイル上限：1回の生成につき12ファイルまで。

@参照システム

これは最も重要な機能です。@システムを使うと、アップロードした各ファイルに特定の役割を割り当てることができ、モデルは推測ではなく指定どおりに正確に実行します。

@の使い方

アセット（画像、動画、音声）をアップロード
プロンプトボックスで**@**を入力してアセットピッカーを開く
ファイルを選択し、生成における役割を記述

@参照を使ったプロンプト例

@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.

重要なルール

アップロードした全ファイルを@で明示的に割り当てる
アセットにホバーしてプレビューし、正しいファイルを参照しているか確認
モデルは割り当てた内容をそのまま実行する — 推測はしない

プロンプト記述テクニック

1. タイムライン形式で記述

プロンプトを時間セグメントに分割して精密にコントロール：

0〜3秒："Wide shot of a city skyline at dawn, slow pan right"（夜明けの都市スカイラインをワイドショットで、ゆっくり右パン）
4〜8秒："Cut to medium shot, character enters from the left, walking"（ミディアムショットにカット、キャラクターが左から歩いて登場）
9〜12秒："Push-in to close-up on character's face, soft focus background"（キャラクターの顔にプッシュインでクローズアップ、背景はソフトフォーカス）

2. 具体的なカメラ用語を使う

モデルはプロの撮影用語を理解します：

Push-in / Pull-out — 被写体に寄る、または離れるズーム
Pan — カメラの水平移動
Tilt — カメラの垂直移動
Tracking shot — 被写体の動きにカメラが追従
Orbit — 被写体の周囲をカメラが回る
One-take — 途切れのない連続ショット

3. トランジションを記述する

マルチショットのシーケンスを作成する場合、シーンの接続方法を指定：

"Fade from outdoor scene to indoor close-up"（屋外シーンから屋内クローズアップへフェード）
"Match cut from spinning coin to spinning globe"（回転するコインから回転する地球儀へマッチカット）
"Whip pan transition to the next scene"（ウィップパンで次のシーンへ移行）

4. 参照と指示を区別する

参照："@video1 for camera movement" — モデルがカメラワークを抽出して再現
指示："slow push-in from wide to close-up" — テキストの説明からモデルが動きを生成

コア機能

画質

物理法則に基づくモーション（重力、布のドレープ、流体力学）
人間や動物の滑らかで自然な動き
プロンプトへの正確な準拠
全体を通じた一貫したビジュアルスタイル

マルチモーダル合成

参照動画からカメラワークを抽出
参照画像からキャラクターの外見を抽出
参照音声から音楽のリズムを抽出
3つすべてを1回の生成で統合

キャラクターの一貫性

ショット間での顔、服装、表情の保持
ブランド要素の一貫性（ロゴ、カラー、タイポグラフィ）
シーンスタイルの一貫性（ライティング、雰囲気）

カメラとモーションの再現

参照動画から特定の撮影技法を再現
ヒッチコックズーム、オービットトラッキング、ワンテイクシーケンス
モーションの速度とリズムの精密なマッチング

出力仕様

尺：4〜15秒（選択可能）
解像度：最大2K / 1080p
アスペクト比：16:9（横長）、9:16（縦長）、1:1（正方形）
音声：ネイティブ対応 — セリフ同期、BGM、効果音を含む
生成速度：15秒動画あたり約30ポイント、前世代比10倍高速

重要な注意事項

実在の人物の顔は不可 — 実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロック
量より質 — 出力に最も影響するアセットのみをアップロード
@の割り当てを確認 — 各アセット参照にホバーして正しいファイルマッピングを確認
モデルのランダム性 — 生成ごとに結果が異なるため、複数回生成して最良のものを選択
利用可能なプラットフォーム：Jimeng（即梦）、Doubao（豆包）、Volcano Engine（火山引擎）

よくある質問

2つの作成モードとは？

最初/最後フレームモード（画像1枚＋テキスト）はシンプルな生成向け、オールインワン参照モード（最大12ファイルのマルチモーダル入力）は複雑な制作向けです。

@参照システムはどのように機能しますか？

プロンプトボックスで@を入力し、アップロード済みファイルを選択して役割を記述します。例：「@image1をキャラクター参照、@video1でカメラワーク参照」。モデルは指定どおりに正確に実行します。

入力制限は？

画像最大9枚、動画クリップ3本（合計15秒以下）、音声ファイル3ファイル（合計15秒以下）、テキスト。1回の生成につき最大12ファイル。

どのような出力が得られますか？

最大2K解像度でネイティブ音声付きの4〜15秒動画。アスペクト比は16:9、9:16、1:1に対応。

実在の人物の写真は使えますか？

いいえ。実在の人物の顔がはっきり写った画像はコンテンツモデレーションによりブロックされます。スタイライズまたはイラストのキャラクター参照画像をご使用ください。

さっそく制作を始めましょう。Seedance 2.0を試す — 無料トライアルあり。