Seedance 2.0 完全指南:从零开始的多模态 AI 视频创作

Seedance 2.0 是字节跳动推出的多模态 AI 视频模型,能够从文本、图片、视频片段和音频生成电影级视频。它提供两种创作模式、用于精确素材控制的 @ 引用系统,以及原生音频生成——全部集成在一个工作流中。以下是每项功能的详细用法。

两种创作模式

Seedance 2.0 提供两个入口,各自适合不同的工作流:

首尾帧模式

  • 上传一张图片作为起始帧或结束帧
  • 添加文字描述来说明期望的动态和场景
  • 适用于:简单动画、图生视频、快速测试

全能参考模式(推荐)

  • 在一次生成中组合图片 + 视频片段 + 音频 + 文本
  • 同时支持最多 12 个参考文件
  • 适用于:复杂的多素材制作、音乐视频、角色驱动的叙事

输入规格

输入类型限制控制内容
图片最多 9 张角色外观、场景风格、产品细节
视频片段最多 3 段(总时长 ≤15s)镜头运动、动作节奏、转场效果
音频文件最多 3 个 MP3(总时长 ≤15s)背景音乐、音效、旁白语气
文本自然语言场景描述、动作指令、氛围

文件总数限制:每次生成最多 12 个参考文件。

@ 引用系统

这是最值得学习的核心功能。@ 系统允许你为每个上传的文件指定特定角色——模型会精确遵循你的指令,而不是自行猜测。

如何使用 @

  1. 上传你的素材(图片、视频、音频)
  2. 在提示词框中输入 @ 打开素材选择器
  3. 选择一个文件并描述它在生成中扮演的角色

带 @ 引用的示例提示词

@image1 作为开场画面角色,
参考 @video1 的镜头运动(缓慢推镜至特写),
使用 @audio1 作为背景音乐,
@image2 作为环境参考。
角色在温暖的夕阳光线下向镜头走来。

关键规则

  • 每个上传的文件都应通过 @ 明确指定角色
  • 悬停在素材上可预览,确认引用的是正确文件
  • 模型会精确执行你的指令——不会自行猜测

提示词写作技巧

1. 按时间线编写

将提示词按时间段拆分,实现精准控制:

  • 0–3s:"城市天际线黎明远景,缓慢向右平移"
  • 4–8s:"切到中景,角色从左侧入画,行走中"
  • 9–12s:"推镜至角色面部特写,背景柔焦"

2. 使用专业镜头语言

模型能理解专业电影摄影术语:

  • Push-in / Pull-out(推镜/拉镜)——向主体靠近或远离
  • Pan(平移)——水平方向的镜头运动
  • Tilt(俯仰)——垂直方向的镜头运动
  • Tracking shot(跟踪拍摄)——镜头跟随主体运动
  • Orbit(环绕)——镜头围绕主体旋转
  • One-take(一镜到底)——连续不间断拍摄

3. 描述转场

创建多镜头序列时,指定场景之间的衔接方式:

  • "从室外场景淡入室内特写"
  • "从旋转硬币匹配剪辑到旋转地球"
  • "甩镜转场到下一场景"

4. 区分参考与指令

  • 参考:"@video1 for camera movement"——模型提取并复现该视频的镜头运动
  • 指令:"slow push-in from wide to close-up"——模型根据你的文字描述生成运动效果

核心能力

画面质量

  • 物理精准的运动效果(重力、布料悬垂、流体动力学)
  • 流畅自然的人物和动物运动
  • 高度遵循提示词
  • 全片视觉风格一致

多模态融合

  • 从参考视频中提取镜头运动
  • 从参考图片中提取角色外观
  • 从参考音频中提取音乐节奏
  • 在一次生成中组合以上所有要素

角色一致性

  • 跨镜头保持面部、服装和表情一致
  • 品牌元素一致(Logo、颜色、字体)
  • 场景风格一致(光线、氛围)

镜头与运动复现

  • 从参考视频中复现特定的摄影技法
  • Hitchcock zoom(希区柯克变焦)、环绕跟踪、一镜到底
  • 精确匹配运动速度和节奏

输出规格

  • 时长:4–15 秒(可选择)
  • 分辨率:最高 2K / 1080p
  • 画面比例:16:9(横屏)、9:16(竖屏)、1:1(方形)
  • 音频:原生音频——包含对白同步、背景音乐、音效
  • 生成速度:每段 15 秒视频约消耗 30 积分,速度比上一代快 10 倍

重要提示

  • 禁止真实人脸——包含清晰真实人脸的上传内容会被内容审核拦截
  • 重质不重量——只上传对你期望的输出影响最大的素材
  • 检查 @ 指定——悬停在每个素材引用上确认文件映射正确
  • 模型随机性——每次生成结果有差异,建议多次生成并挑选最佳效果
  • 可用平台:即梦、豆包、火山引擎

常见问题

两种创作模式分别是什么?

首尾帧模式(一张图片 + 文本)适合简单生成,全能参考模式(最多 12 个多模态文件)适合复杂制作。

@ 引用系统如何使用?

在提示词框中输入 @,选择已上传的文件并描述其角色。例如:"@image1 作为角色参考,@video1 用于镜头运动。"模型会精确遵循你的指令。

输入限制是多少?

最多 9 张图片、3 段视频片段(总时长 ≤15s)、3 个音频文件(总时长 ≤15s),以及文本。每次生成最多 12 个文件。

输出效果如何?

4–15 秒的视频,最高 2K 分辨率,带原生音频,支持 16:9、9:16 或 1:1 画面比例。

可以使用真人照片吗?

不可以。包含清晰真实人脸的上传内容会被内容审核拦截。请使用风格化或插画角色参考图。


准备好开始创作了吗?立即体验 Seedance 2.0 — 提供免费试用。