ByteDance 新一代视频模型

Seedance2.0

四种输入模式。原生音视频同步。电影级摄影重现。多镜头叙事与超高角色一致性——全部支持高达 2K 分辨率。

2月24日即将上线

2,182,705+ happy users

2K
分辨率
12
输入文件
8+
唇形同步语言
30%
更快
视频示例

Seedance 2.0 实际效果展示

Seedance 2.0 生成的真实输出——从电影级一镜到底跟踪镜头到音频同步叙事和多角色场景。

一镜到底跟踪镜头

连续跟踪拍摄对象穿越多个城市场景

电影级原生音频

日落场景中的复古汽车拍摄,配有拟音和环境音效

动作场景合成

星空下的打斗场景,带有尘土特效和动态摄影

情感叙事

基于图片和音频参考生成的带有角色表情的故事

角色替换

乐队表演中无缝替换角色,同时保持动作不变

多镜头延展

跨多个镜头延展场景,保持角色一致性

创作模式

四种创作方式

Seedance 2.0 接受文本、图片、视频参考和音频作为输入——可单独使用或组合使用,实现最大创作控制力。

T2V

文本转视频

用自然语言描述任何场景,Seedance 2.0 将通过同步对白、拟音和环境音效将其生动呈现——全部原生生成。

  • 通过提示词精细控制场景和动作
  • 原生音频生成(对白 + 音效 + 环境音)
  • 支持全部 6 种宽高比
  • 4–12 秒输出时长
I2V

图片转视频

上传静态图片,观看其以逼真动作进行动画化,同时保留每个细节——面部特征、服装、背景和光线。

  • 保持身份特征的动画
  • 最多使用 9 张参考图片用于角色和场景
  • 自动生成摄影机运动
  • 帧间风格一致
V2V

视频参考

上传参考视频以提取摄影机运动、角色动作和时间节奏。Seedance 2.0 无需复杂提示词即可智能重现电影技术。

  • 摄影机轨迹提取与重现
  • 从参考素材中迁移面部表情
  • 将动作复制到新角色/场景中
  • 最多 3 个参考视频(总计 15 秒)
A2V

音频驱动视频

使用配音、音乐或旁白作为主要控制信号。模型生成与音频的节奏、情感和时间相匹配的视觉内容。

  • 节拍匹配的视觉生成
  • 根据上传的配音生成唇形同步
  • 音乐驱动的场景转换
  • 最多 3 个音频文件(总计 15 秒)
多模态输入

最多 12 个文件。一次生成。

以前,获得复杂的摄影机运动或角色一致的多场景视频需要编写大量提示词。使用 Seedance 2.0,您只需上传参考文件,模型即可智能提取所需内容。

最多 9 张图片角色、场景、道具、风格参考
最多 3 个视频摄影机运动、动作模式、表情(最长 15 秒)
最多 3 个音频文件配音、音乐、音效同步(最长 15 秒)
输入流程图
Text Prompt
@Image1
@Image2
@Image3
@Video1
@Audio1
视频 + 同步音频
高达 2K · 4–12秒 · 对白 + 拟音 + 环境音
电影级摄影机控制

好莱坞摄影技术

在提示词中描述摄影机运动或上传参考视频——Seedance 2.0 自动提取和重现专业电影摄影技术。

Hitchcock 变焦

经典的推拉变焦效果,创造令人迷失方向的透视转换——非常适合戏剧性揭示和主角恐慌的场景。

跟踪镜头

通过流畅的后方、侧方和正面跟踪拍摄对象穿越环境。支持低角度和高角度变体。

环绕 / 轨道镜头

围绕拍摄对象进行多角度环绕,带有自然加速和减速效果。创建动态 180° 和 360° 展示。

摇臂与伸缩臂

从地面向上扫拍或从空中视角向下俯冲的垂直摄影机运动,动作流畅。

水平摇摄与俯仰摇摄

精确到角度的水平摇摄(90°、180°),支持暂停和恢复控制。自然跟随拍摄对象的视线方向。

推/拉变焦

平滑变焦至特写或拉远以展示更广阔的场景。控制变焦节奏以实现戏剧性或微妙的效果。

突破性技术

原生音视频同步

与其他将音频作为后处理步骤添加的模型不同,Seedance 2.0 将高保真音频作为核心生成管线的一部分进行生成。三个智能音频层在帧级别与视觉内容同步。

  • 对白——8 种以上语言的音素级唇形同步
  • 拟音——动作匹配的音效(脚步声、撞击声、开门声)
  • 环境音——环境音效(风声、人群声、雨声、交通声)
  • 节拍匹配——音乐的音视频节奏同步
立即试用
音频层叠结构
对白90% 精度

唇形同步语音 · 8 种以上语言 · 音素级精度

拟音82% 精度

脚步声 · 撞击声 · 物体交互 · 环境音效

环境音75% 精度

背景氛围 · 天气 · 人群 · 空间音频

工作流程

工作原理

01

选择您的输入

从文本提示词开始,上传角色和场景的参考图片,添加摄影机运动的参考视频,或提供用于唇形同步和节拍匹配的音频。

02

配置输出

Select your aspect ratio (16:9, 9:16, 1:1, etc.), video duration (4–12 seconds), and desired visual style — from photorealistic to anime to film noir.

03

使用 @标签引用

在提示词中使用 @Image1、@Image2、@Video1 标记来精确告诉模型每个参考文件应如何影响输出。

04

生成与迭代

Seedance 2.0 处理您的多模态输入并生成带有同步音频的视频。优化提示词或更换参考文件进行迭代。

提示词指南

获得更好效果的技巧

通过这些来自资深用户和官方文档的提示词技巧,充分发挥 Seedance 2.0 的潜力。

使用摄影语言

Include specific cinematography terms: "Hitchcock zoom", "tracking shot following the subject", "slow 180° pan", "low-angle crane rising". Seedance 2.0 understands professional film vocabulary.

示例提示词

一个穿着深色西装的男人走过霓虹灯照亮的走廊。摄影机从后方跟踪镜头开始,当他到达电梯时转为环绕轨道镜头。

引用您上传的文件

在提示词中使用 @Image 和 @Video 标记将特定文件绑定到角色。将图片分配给角色、场景或风格参考,将视频分配给摄影机或动作参考。

示例提示词

@Image1 是主角。@Image2 是办公室场景。@Video1 提供摄影机运动。角色坐在桌前,拿起电话,望向窗外。

描述情感与动作

超越视觉描述。加入情感状态、呼吸模式、微表情和肢体语言,使角色动画更加逼真。

示例提示词

女人从书本上抬起头,双眼因惊讶而睁大。她缓缓站起,双手微微颤抖,犹豫地向前迈了一步。

分层音频指导

Describe the soundscape you want: dialogue content, ambient sounds, and action-specific foley. The model generates all three audio layers natively.

示例提示词

一个繁忙的咖啡馆场景。背景中有交谈声和杯子碰撞声。咖啡师喊出一个订单。雨点拍打着窗户。主角叹了口气,搅动着咖啡。

视觉风格

任何您能想象的美学风格

在提示词中指定视觉风格,或让模型从参考图片中推断。

照片写实
逼真的画面质量
电影胶片
好莱坞调色
动漫
日式动画风格
3D 动画
Pixar 级渲染质量
2D 动画
扁平插画风格
水彩
画笔般的柔和边缘
黑色电影
高对比度黑白戏剧
抽象
非具象艺术
规格参数

技术详情

最大分辨率
2K
1080p standard
时长
4–12s
每次生成
宽高比
6
16:9 · 9:16 · 4:3 · 3:4 · 21:9 · 1:1
输入模态
4
文本 · 图片 · 视频 · 音频
最大输入文件数
12
跨模态合计
参考图片
9
角色、物体、场景
参考视频
3
总计最长 15 秒
音频文件
3
总计最长 15 秒
唇形同步语言
8+
EN · ZH · KO · JA · ES · ID 及更多
音频层
3
对白 · 拟音 · 环境音
相比 v1.5 的速度
+30%
更快的生成速度
视觉风格
8+
从照片写实到抽象
对比

2.0 vs 1.5 Pro

全方位提升——分辨率、音频、输入、速度和创作控制力。

功能Seedance 2.0Seedance 1.5 Pro
分辨率高达 2K1080p
原生音频对白 + 拟音 + 环境音基本音频同步
唇形同步8 种以上语言,音素级有限的语言支持
输入模态文本 + 图片 + 视频 + 音频仅支持文本 + 图片
最大输入文件数同时 12 个文件1–2 个文件
角色一致性极致——多镜头 IP 连续性良好——单镜头
多镜头叙事支持——自动场景转换不支持
摄影机控制参考视频提取仅限提示词
视频编辑自然语言编辑不支持
生成速度快 30%基准
使用场景

您可以创建什么

📱

社交媒体内容

为 TikTok、Instagram Reels 和 YouTube Shorts 创建引人注目的视频。原生音频生成意味着您的内容可以直接发布——无需音频编辑。

🛍️

产品营销

通过专业摄影机运动生成电影级产品展示。上传产品照片,添加摄影技术参考视频,即可获得精美的广告片。

🎞️

短片与叙事

制作跨场景角色一致的多镜头故事序列。自动转场和角色身份持久性支持系列内容创作。

📚

教育内容

创建具有 8 种以上语言同步配音唇形同步的引人入胜的讲解视频。上传旁白音频,让模型生成匹配的视觉内容。

🎶

音乐视频

根据音频输入生成节拍匹配的视觉内容。模型将场景转换、角色运动和摄影机切换与音乐节奏同步。

💎

品牌故事

构建具有极致角色一致性的系列内容。您的品牌吉祥物、代言人或产品在每个镜头中保持身份一致。

🎯

电影预演

在实际制作前使用参考视频对复杂的摄影机运动进行原型设计。虚拟测试 Hitchcock 变焦、摇臂镜头和环绕镜头序列。

🌍

多语言内容

使用不同音频从单个提示词生成相同视频的英语、普通话、韩语、日语、西班牙语、印尼语等多种语言唇形同步版本。

推荐信

Our Trustpilot score

阅读人们在公共平台上发表的评论。

常见问题

常见问题解答

关于 Seedance 2.0 您需要了解的一切

什么是 Seedance 2.0?

Seedance 2.0 is ByteDance's next-generation AI video model. It generates video with native audio (dialogue, foley, and ambience) from four input types: text, images, video references, and audio. It outputs up to 2K resolution with extreme character consistency and professional camera techniques.

Seedance 2.0 与其他 AI 视频模型有何不同?

Three key differentiators: (1) Native audio-visual generation — audio isn't post-processed but generated jointly with video, enabling true lip-sync and beat matching. (2) Reference video input — upload existing videos to extract and reproduce camera movements and character motion without complex prompting. (3) Multi-shot storytelling with extreme character consistency across scenes.

多模态输入系统如何工作?

You can combine up to 12 files: up to 9 images (for characters, locations, style references), up to 3 video clips (for camera movements and motion references, 15s total), and up to 3 audio files (for voiceover and music, 15s total). Use @Image1, @Video1 notation in your prompt to assign roles to each file.

Seedance 2.0 支持哪些摄影技术?

Seedance 2.0 understands professional cinematography language including: Hitchcock zoom (dolly-zoom), tracking shots (rear, side, frontal), orbiting/circling shots, crane and boom movements, pan and tilt with precise degree control, push/pull zoom, and robotic arm multi-angle effects. You can describe these in text or upload a reference video.

支持哪些分辨率和格式?

Output: up to 2K resolution (1080p standard), 4–12 second duration, 6 aspect ratios (16:9, 9:16, 4:3, 3:4, 21:9, 1:1). The model supports photorealistic, anime, 2D/3D animation, watercolor, film noir, and abstract visual styles.

原生音频生成如何工作?

Seedance 2.0 generates three audio layers simultaneously with the video: Dialogue (with phoneme-level lip-sync in 8+ languages), Foley (action-matched sound effects like footsteps, impacts, and environmental interactions), and Ambience (background audio like wind, crowds, rain). All layers are synchronized with the visual content.

我可以控制多个镜头中的角色外观吗?

可以。Seedance 2.0 具有极致的角色一致性——面部特征、服装细节、配饰和视觉风格在多镜头叙事中均匀保持。上传角色参考图片,模型将在整个生成序列中保持身份持久性。

视频参考输入如何工作?

上传最多 3 个参考视频(总计 15 秒)。模型从参考素材中提取摄影机轨迹、角色运动模式和面部表情,然后将其应用于新角色和场景的生成视频中。这取代了复杂的基于文本的摄影机指令。

唇形同步支持哪些语言?

Seedance 2.0 supports phoneme-level lip-sync in 8+ languages: English, Mandarin Chinese, Cantonese, Korean, Japanese, Spanish, Indonesian, and more. You can generate the same scene with lip-sync in different languages by changing the audio input.

Seedance 2.0 需要多少积分?

Seedance 2.0 采用按秒计费。积分费用随时长而变化——短片段花费更少,长片段花费更多。请访问视频生成页面查看当前积分费率。

我可以将 Seedance 2.0 生成的视频用于商业用途吗?

可以。在 Easy-Peasy.AI 上使用 Seedance 2.0 生成的视频可用于商业用途,包括营销、广告、社交媒体、产品视频和内容创作,须遵守我们的服务条款。

Seedance 2.0 相比以前的版本快多少?

Seedance 2.0 比 Seedance 1.5 Pro 快 30%,同时提供更高分辨率(高达 2K vs 1080p)、更多输入模态和原生多层音频生成。标准片段的典型生成时间在 60 秒以内。