Seedance 2.0 完整指南:從零開始的多模態 AI 影片創作

Seedance 2.0 是字節跳動推出的多模態 AI 影片模型,能從文字、圖片、影片片段和音訊生成電影級影片。它提供兩種創作模式、用於精確素材控制的 @ 參考系統,以及原生音訊生成功能——全部整合在同一個工作流程中。以下是每項功能的完整使用方式。

兩種創作模式

Seedance 2.0 提供兩個入口,分別適合不同的工作流程:

首尾幀模式

  • 上傳一張圖片作為開場或結尾畫面
  • 加入文字描述來指定動態效果和場景
  • 最適合:簡單動畫、圖片轉影片、快速測試

全能參考模式(推薦)

  • 在單次生成中結合圖片 + 影片片段 + 音訊 + 文字
  • 同時支援最多 12 個參考檔案
  • 最適合:複雜的多素材製作、音樂錄影帶、角色驅動的敘事

輸入規格

輸入類型上限控制項目
圖片最多 9 張角色外觀、場景風格、產品細節
影片片段最多 3 段(總計 ≤15 秒)攝影機運動、動作節奏、轉場效果
音訊檔案最多 3 個 MP3(總計 ≤15 秒)背景音樂、音效、旁白語調
文字自然語言場景描述、動作指令、氛圍

檔案總數限制:每次生成最多 12 個參考檔案。

@ 參考系統

這是最重要的功能。@ 系統讓你為每個上傳的檔案指定特定角色——模型會精確遵循你的指派,不會自行猜測。

如何使用 @

  1. 上傳你的素材(圖片、影片、音訊)
  2. 在提示詞輸入框中輸入 @,開啟素材選擇器
  3. 選取檔案並描述它在生成中的角色

使用 @ 參考的提示詞範例

@image1 as the opening frame character,
reference @video1 for camera movement (slow push-in to close-up),
use @audio1 for background music,
@image2 as the environment reference.
The character walks toward the camera under warm sunset lighting.

重要規則

  • 每個上傳的檔案都應使用 @ 明確指派
  • 將滑鼠懸停在素材上可預覽並確認參考的檔案正確無誤
  • 模型會精確執行你的指派——不會自行猜測

提示詞撰寫技巧

1. 按時間軸撰寫

將提示詞拆分為時間段,實現精確控制:

  • 0–3 秒:「城市天際線的遠景鏡頭,黎明時分,緩慢向右平移」
  • 4–8 秒:「切換至中景鏡頭,角色從左側入鏡,步行前進」
  • 9–12 秒:「推進至臉部特寫,背景柔焦處理」

2. 使用專業攝影語言

模型能理解專業的電影攝影術語:

  • Push-in / Pull-out(推進 / 拉遠) — 鏡頭向主體推近或拉遠
  • Pan(平移) — 攝影機水平移動
  • Tilt(俯仰) — 攝影機垂直移動
  • Tracking shot(跟蹤鏡頭) — 攝影機跟隨主體移動
  • Orbit(環繞) — 攝影機繞主體旋轉
  • One-take(一鏡到底) — 連續不間斷的鏡頭

3. 描述轉場方式

在創建多鏡頭序列時,請指定場景之間的銜接方式:

  • 「從室外場景淡入室內特寫」
  • 「從旋轉的硬幣匹配剪接到旋轉的地球」
  • 「快速平移轉場至下一個場景」

4. 區分參考與指令

  • 參考:「@video1 for camera movement」——模型會提取並複製該攝影機運動
  • 指令:「slow push-in from wide to close-up」——模型會根據你的文字描述生成運動效果

核心能力

畫面品質

  • 物理精確的動態效果(重力、布料懸垂、流體動力學)
  • 流暢自然的人物與動物動態
  • 精確遵循提示詞
  • 全片風格一致

多模態融合

  • 從參考影片中提取攝影機運動
  • 從參考圖片中提取角色外觀
  • 從參考音訊中提取音樂節奏
  • 在單次生成中結合以上三者

角色一致性

  • 跨鏡頭保持臉部、服裝和表情一致
  • 品牌元素一致性(標誌、色彩、字體)
  • 場景風格一致性(燈光、氛圍)

攝影機運動與動態複製

  • 從參考影片中複製特定的電影攝影技巧
  • Hitchcock zoom、環繞跟蹤、一鏡到底等效果
  • 精確匹配動態速度與節奏

輸出規格

  • 時長:4–15 秒(可選擇)
  • 解析度:最高 2K / 1080p
  • 畫面比例:16:9(橫式)、9:16(直式)、1:1(方形)
  • 音訊:原生音訊——包含對白同步、背景音樂、音效
  • 生成速度:每段 15 秒影片約需 30 點數,速度為上一代的 10 倍

重要注意事項

  • 禁止真人臉部 — 包含清晰真人臉部的上傳素材會被內容審核機制攔截
  • 重質不重量 — 只上傳對期望輸出影響最大的素材
  • 確認 @ 指派 — 將滑鼠懸停在每個素材參考上,確認檔案對應正確
  • 模型隨機性 — 每次生成的結果會有差異;多次生成後挑選最佳成果
  • 可用平台:即夢(Jimeng)、豆包(Doubao)、火山引擎(Volcano Engine)

常見問題

兩種創作模式是什麼?

首尾幀模式(一張圖片 + 文字)適合簡單生成,全能參考模式(最多 12 個多模態檔案)適合複雜製作。

@ 參考系統如何運作?

在提示詞輸入框中輸入 @,選取已上傳的檔案並描述其角色。例如:「@image1 作為角色參考,@video1 用於攝影機運動。」模型會精確遵循你的指派。

輸入限制是什麼?

最多 9 張圖片、3 段影片片段(總計 ≤15 秒)、3 個音訊檔案(總計 ≤15 秒),以及文字。每次生成最多 12 個檔案。

輸出規格是什麼?

4–15 秒的影片,解析度最高 2K,具備原生音訊,支援 16:9、9:16 或 1:1 畫面比例。

可以使用真人照片嗎?

不行。包含清晰真人臉部的上傳素材會被內容審核機制攔截。請改用風格化或插畫風格的角色參考圖。


準備好開始創作了嗎?立即試用 Seedance 2.0——提供免費試用。