What are the two creation modes in Seedance 2.0?

Seedance 2.0 提供两种模式：首尾帧模式（上传一张图片 + 文字描述，适合简单生成）和全能参考模式（组合图片、视频、音频和文本，最多 12 个文件，实现最大创作控制力）。

How does the @ reference system work in Seedance 2.0?

在提示词框中输入 @ 打开素材列表，然后为每个上传的文件指定角色。例如：'@image1 作为开场画面，参考 @video1 的镜头运动，使用 @audio1 作为背景音乐'。模型会精确遵循你的指令，而不是自行猜测。

What are the input limits for Seedance 2.0?

最多 9 张图片、3 段视频片段（总时长 ≤15 秒）、3 个 MP3 格式音频文件（总时长 ≤15 秒），以及文本提示词。每次生成最多 12 个参考文件。

What video output does Seedance 2.0 produce?

4 至 15 秒的视频，最高 2K 分辨率，带原生音频（对白、音乐、音效）。支持的画面比例：16:9、9:16 和 1:1。

Can I upload real human face photos to Seedance 2.0?

不可以。Seedance 2.0 不允许上传包含清晰真实人脸的图片——系统内容审核会自动拦截。请使用插画风格或风格化角色参考图代替。

Seedance 2.0 完全指南：从零开始的多模态 AI 视频创作

February 12, 2026

Seedance 2.0 是字节跳动推出的多模态 AI 视频模型，能够从文本、图片、视频片段和音频生成电影级视频。它提供两种创作模式、用于精确素材控制的 @ 引用系统，以及原生音频生成——全部集成在一个工作流中。以下是每项功能的详细用法。

两种创作模式

Seedance 2.0 提供两个入口，各自适合不同的工作流：

首尾帧模式

上传一张图片作为起始帧或结束帧
添加文字描述来说明期望的动态和场景
适用于：简单动画、图生视频、快速测试

全能参考模式（推荐）

在一次生成中组合图片 + 视频片段 + 音频 + 文本
同时支持最多 12 个参考文件
适用于：复杂的多素材制作、音乐视频、角色驱动的叙事

输入规格

输入类型	限制	控制内容
图片	最多 9 张	角色外观、场景风格、产品细节
视频片段	最多 3 段（总时长 ≤15s）	镜头运动、动作节奏、转场效果
音频文件	最多 3 个 MP3（总时长 ≤15s）	背景音乐、音效、旁白语气
文本	自然语言	场景描述、动作指令、氛围

文件总数限制：每次生成最多 12 个参考文件。

@ 引用系统

这是最值得学习的核心功能。@ 系统允许你为每个上传的文件指定特定角色——模型会精确遵循你的指令，而不是自行猜测。

如何使用 @

上传你的素材（图片、视频、音频）
在提示词框中输入 @ 打开素材选择器
选择一个文件并描述它在生成中扮演的角色

带 @ 引用的示例提示词

@image1 作为开场画面角色，
参考 @video1 的镜头运动（缓慢推镜至特写），
使用 @audio1 作为背景音乐，
@image2 作为环境参考。
角色在温暖的夕阳光线下向镜头走来。

关键规则

每个上传的文件都应通过 @ 明确指定角色
悬停在素材上可预览，确认引用的是正确文件
模型会精确执行你的指令——不会自行猜测

提示词写作技巧

1. 按时间线编写

将提示词按时间段拆分，实现精准控制：

0–3s："城市天际线黎明远景，缓慢向右平移"
4–8s："切到中景，角色从左侧入画，行走中"
9–12s："推镜至角色面部特写，背景柔焦"

2. 使用专业镜头语言

模型能理解专业电影摄影术语：

Push-in / Pull-out（推镜/拉镜）——向主体靠近或远离
Pan（平移）——水平方向的镜头运动
Tilt（俯仰）——垂直方向的镜头运动
Tracking shot（跟踪拍摄）——镜头跟随主体运动
Orbit（环绕）——镜头围绕主体旋转
One-take（一镜到底）——连续不间断拍摄

3. 描述转场

创建多镜头序列时，指定场景之间的衔接方式：

"从室外场景淡入室内特写"
"从旋转硬币匹配剪辑到旋转地球"
"甩镜转场到下一场景"

4. 区分参考与指令

参考："@video1 for camera movement"——模型提取并复现该视频的镜头运动
指令："slow push-in from wide to close-up"——模型根据你的文字描述生成运动效果

核心能力

画面质量

物理精准的运动效果（重力、布料悬垂、流体动力学）
流畅自然的人物和动物运动
高度遵循提示词
全片视觉风格一致

多模态融合

从参考视频中提取镜头运动
从参考图片中提取角色外观
从参考音频中提取音乐节奏
在一次生成中组合以上所有要素

角色一致性

跨镜头保持面部、服装和表情一致
品牌元素一致（Logo、颜色、字体）
场景风格一致（光线、氛围）

镜头与运动复现

从参考视频中复现特定的摄影技法
Hitchcock zoom（希区柯克变焦）、环绕跟踪、一镜到底
精确匹配运动速度和节奏

输出规格

时长：4–15 秒（可选择）
分辨率：最高 2K / 1080p
画面比例：16:9（横屏）、9:16（竖屏）、1:1（方形）
音频：原生音频——包含对白同步、背景音乐、音效
生成速度：每段 15 秒视频约消耗 30 积分，速度比上一代快 10 倍

重要提示

禁止真实人脸——包含清晰真实人脸的上传内容会被内容审核拦截
重质不重量——只上传对你期望的输出影响最大的素材
检查 @ 指定——悬停在每个素材引用上确认文件映射正确
模型随机性——每次生成结果有差异，建议多次生成并挑选最佳效果
可用平台：即梦、豆包、火山引擎

常见问题

两种创作模式分别是什么？

首尾帧模式（一张图片 + 文本）适合简单生成，全能参考模式（最多 12 个多模态文件）适合复杂制作。

@ 引用系统如何使用？

在提示词框中输入 @，选择已上传的文件并描述其角色。例如："@image1 作为角色参考，@video1 用于镜头运动。"模型会精确遵循你的指令。

输入限制是多少？

最多 9 张图片、3 段视频片段（总时长 ≤15s）、3 个音频文件（总时长 ≤15s），以及文本。每次生成最多 12 个文件。

输出效果如何？

4–15 秒的视频，最高 2K 分辨率，带原生音频，支持 16:9、9:16 或 1:1 画面比例。

可以使用真人照片吗？

不可以。包含清晰真实人脸的上传内容会被内容审核拦截。请使用风格化或插画角色参考图。