Seedance 2.0 完全指南:从零开始的多模态 AI 视频创作
Seedance 2.0 是字节跳动推出的多模态 AI 视频模型,能够从文本、图片、视频片段和音频生成电影级视频。它提供两种创作模式、用于精确素材控制的 @ 引用系统,以及原生音频生成——全部集成在一个工作流中。以下是每项功能的详细用法。
两种创作模式
Seedance 2.0 提供两个入口,各自适合不同的工作流:
首尾帧模式
- 上传一张图片作为起始帧或结束帧
- 添加文字描述来说明期望的动态和场景
- 适用于:简单动画、图生视频、快速测试
全能参考模式(推荐)
- 在一次生成中组合图片 + 视频片段 + 音频 + 文本
- 同时支持最多 12 个参考文件
- 适用于:复杂的多素材制作、音乐视频、角色驱动的叙事
输入规格
| 输入类型 | 限制 | 控制内容 |
|---|---|---|
| 图片 | 最多 9 张 | 角色外观、场景风格、产品细节 |
| 视频片段 | 最多 3 段(总时长 ≤15s) | 镜头运动、动作节奏、转场效果 |
| 音频文件 | 最多 3 个 MP3(总时长 ≤15s) | 背景音乐、音效、旁白语气 |
| 文本 | 自然语言 | 场景描述、动作指令、氛围 |
文件总数限制:每次生成最多 12 个参考文件。
@ 引用系统
这是最值得学习的核心功能。@ 系统允许你为每个上传的文件指定特定角色——模型会精确遵循你的指令,而不是自行猜测。
如何使用 @
- 上传你的素材(图片、视频、音频)
- 在提示词框中输入 @ 打开素材选择器
- 选择一个文件并描述它在生成中扮演的角色
带 @ 引用的示例提示词
@image1 作为开场画面角色,
参考 @video1 的镜头运动(缓慢推镜至特写),
使用 @audio1 作为背景音乐,
@image2 作为环境参考。
角色在温暖的夕阳光线下向镜头走来。
关键规则
- 每个上传的文件都应通过 @ 明确指定角色
- 悬停在素材上可预览,确认引用的是正确文件
- 模型会精确执行你的指令——不会自行猜测
提示词写作技巧
1. 按时间线编写
将提示词按时间段拆分,实现精准控制:
- 0–3s:"城市天际线黎明远景,缓慢向右平移"
- 4–8s:"切到中景,角色从左侧入画,行走中"
- 9–12s:"推镜至角色面部特写,背景柔焦"
2. 使用专业镜头语言
模型能理解专业电影摄影术语:
- Push-in / Pull-out(推镜/拉镜)——向主体靠近或远离
- Pan(平移)——水平方向的镜头运动
- Tilt(俯仰)——垂直方向的镜头运动
- Tracking shot(跟踪拍摄)——镜头跟随主体运动
- Orbit(环绕)——镜头围绕主体旋转
- One-take(一镜到底)——连续不间断拍摄
3. 描述转场
创建多镜头序列时,指定场景之间的衔接方式:
- "从室外场景淡入室内特写"
- "从旋转硬币匹配剪辑到旋转地球"
- "甩镜转场到下一场景"
4. 区分参考与指令
- 参考:"@video1 for camera movement"——模型提取并复现该视频的镜头运动
- 指令:"slow push-in from wide to close-up"——模型根据你的文字描述生成运动效果
核心能力
画面质量
- 物理精准的运动效果(重力、布料悬垂、流体动力学)
- 流畅自然的人物和动物运动
- 高度遵循提示词
- 全片视觉风格一致
多模态融合
- 从参考视频中提取镜头运动
- 从参考图片中提取角色外观
- 从参考音频中提取音乐节奏
- 在一次生成中组合以上所有要素
角色一致性
- 跨镜头保持面部、服装和表情一致
- 品牌元素一致(Logo、颜色、字体)
- 场景风格一致(光线、氛围)
镜头与运动复现
- 从参考视频中复现特定的摄影技法
- Hitchcock zoom(希区柯克变焦)、环绕跟踪、一镜到底
- 精确匹配运动速度和节奏
输出规格
- 时长:4–15 秒(可选择)
- 分辨率:最高 2K / 1080p
- 画面比例:16:9(横屏)、9:16(竖屏)、1:1(方形)
- 音频:原生音频——包含对白同步、背景音乐、音效
- 生成速度:每段 15 秒视频约消耗 30 积分,速度比上一代快 10 倍
重要提示
- 禁止真实人脸——包含清晰真实人脸的上传内容会被内容审核拦截
- 重质不重量——只上传对你期望的输出影响最大的素材
- 检查 @ 指定——悬停在每个素材引用上确认文件映射正确
- 模型随机性——每次生成结果有差异,建议多次生成并挑选最佳效果
- 可用平台:即梦、豆包、火山引擎
常见问题
两种创作模式分别是什么?
首尾帧模式(一张图片 + 文本)适合简单生成,全能参考模式(最多 12 个多模态文件)适合复杂制作。
@ 引用系统如何使用?
在提示词框中输入 @,选择已上传的文件并描述其角色。例如:"@image1 作为角色参考,@video1 用于镜头运动。"模型会精确遵循你的指令。
输入限制是多少?
最多 9 张图片、3 段视频片段(总时长 ≤15s)、3 个音频文件(总时长 ≤15s),以及文本。每次生成最多 12 个文件。
输出效果如何?
4–15 秒的视频,最高 2K 分辨率,带原生音频,支持 16:9、9:16 或 1:1 画面比例。
可以使用真人照片吗?
不可以。包含清晰真实人脸的上传内容会被内容审核拦截。请使用风格化或插画角色参考图。
准备好开始创作了吗?立即体验 Seedance 2.0 — 提供免费试用。