Case 列表
Sora 2
Seedance 2 Fast vs Sora 2
Case 1
生成器按钮会打开 dev.elser.ai 上的外部工具。
Benchmark Lab
这里把 compare benchmark 素材包整理成了 7 组可直接查看的 benchmark case。每组都保留原始 prompt、原始视频规格、结构化评分和并排播放。
这是基于仓库本地素材和 Gemini 3 Pro 评测记录整理的第三方参考页,不代表任何厂商官方 benchmark 结论。
Case 数
7
视频数
14
已写评测
7
对比模型族
6
每个 case 都保留同一个 index、同一张参考图和原始 benchmark prompt。页面直接读取仓库里已经整理好的配对关系、原始视频规格和评测结论。
仓库原始来源
case 配对、分数和结论都直接来自 compare/case-manifest.json。
保留原始规格
页面不会重新标准化视频,时长、fps 和分辨率都按原始素材展示。
单轮评测依据
当前结论来自 Gemini 3 Pro 的逐 case 评测,并已写回仓库。
当前覆盖范围
现在这一套对比已经覆盖人物运动、云层控制、流体物理、航拍漂移、越野动作、时尚走路和城市车流模拟。
页面里的视频和 case 图都直接从站点配置的 compare benchmark 资源路径读取。
模型导航
你可以先打开对应模型的 benchmark case,再继续进入外部的 image 和 video generator 做同 prompt 对照。
Case 列表
Seedance 2 Fast vs Sora 2
Case 1
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 列表
Seedance 2 Fast vs Wan 2.6 Flash
Case 2
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 列表
Seedance 2 Fast vs Wan 2.6
Case 3
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 列表
Seedance 2 Fast vs Kling 3
Case 4 / Case 5
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 列表
Seedance 2 Fast vs Seedance Pro Fast
Case 6
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 列表
Seedance 2 Fast vs Veo 3.1 Fast
Case 7
生成器按钮会打开 dev.elser.ai 上的外部工具。
Case 筛选
你可以用筛选器把页面收窄到某一个对比模型,只看下面对应的 case 和胜负卡片。
当前筛选: 全部对比模型
Benchmark 总结
你可以直接从这里跳到每个对比 case,也可以用同一套参考图和 prompt 去外部生成器里继续对照 image 和 video 结果。
生成器按钮会在新标签页打开 dev.elser.ai 上的外部工具。每个卡片都保留了对比模型、胜者和仓库里的结论。

Case 1
胜者:Sora 2Sora 2 胜出,因为它在更长片段里仍然保持了更稳的人物、布料和背景关系。
外部生成器会在 dev.elser.ai 上打开。

Case 2
胜者:Wan 2.6 FlashWan 2.6 Flash 胜出,因为它真正做到了云层局部呼吸式变化,而不是整体方向性漂移。
外部生成器会在 dev.elser.ai 上打开。

Case 3
胜者:Wan 2.6Wan 2.6 胜出,因为它把静态岩石和动态水体分得更开,回流也更厚重真实。
外部生成器会在 dev.elser.ai 上打开。

Case 4
胜者:Kling 3Kling 3 胜出,因为它真的执行了分层异向运动,而不是把峡谷做成轻微动态壁纸。
外部生成器会在 dev.elser.ai 上打开。

Case 5
胜者:Kling 3Kling 3 胜出,因为它呈现的是更接近真实越野摄影的动态关系,而不是主体在背景上滑动。
外部生成器会在 dev.elser.ai 上打开。

Case 6
胜者:Seedance Pro FastSeedance Pro Fast 胜出,而且这是一次非常明显的版本升级展示。
外部生成器会在 dev.elser.ai 上打开。

Case 7
胜者:Veo 3.1 FastVeo 3.1 Fast 胜出,因为它更像真实城市动态模拟,而不是一张城市图做动画化处理。
外部生成器会在 dev.elser.ai 上打开。
Case 1
胜者:Sora 2重点看侧向跟拍、奔跑节奏、裙摆运动和远景环境稳定性。
Sora 2 胜出,因为它在更长片段里仍然保持了更稳的人物、布料和背景关系。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
A young woman in a flowing white dress runs gracefully across a long, wide cliff plateau at sunset. The cliff surface is flat and extended - a safe, continuous rocky plain designed for running. She runs smoothly forward along the cliff edge, never approaching the drop. Camera tracks her from the side at medium distance, keeping her side profile clearly visible at all times. Her hair streams backward naturally in the wind. Her dress flows softly with each step. Natural running rhythm - light barefoot steps, steady breathing. She maintains forward momentum in one direction only. No stopping. No turning back. No approaching the cliff edge. The background reveals vast mountain valleys under warm golden-hour light. Soft wind moves grass subtly. Subtle dust lifts from her footsteps. Camera movement: - smooth lateral tracking - slight forward drift - gentle handheld cinematic motion Lighting: golden sunset rim light on her face and body, soft shadows across the plateau. Motion style: realistic running speed, elegant posture, relaxed arms, natural stride. Atmosphere: open, cinematic, emotional, freedom-inspired. No teleporting. No cuts. No scene changes. End with her still running forward, centered in frame, dress flowing behind her. Ultra-realistic cinematic outdoor fashion style. Natural physics. High-end travel film mood.
A 侧
总分
65 / 100
39 / 60
时长
5.07s
帧率
30
分辨率
1112x836
B 侧
总分
83 / 100
50 / 60
时长
4.04s
帧率
24
分辨率
1176x784
统一评分表
| 维度 | Seedance 2 Fast | Sora 2 |
|---|---|---|
| 提示词符合度 | 7 | 9 |
| 动作 / 运动 | 6 | 8 |
| 物理真实性 | 5 | 7 |
| 镜头控制 | 8 | 9 |
| 稳定性 | 6 | 8 |
| 电影感完成度 | 7 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 的画面气质接近参考图,但腿部形变和山体闪烁明显拉低了可用性。
胜者读数
Sora 2 在细节、光影和时间稳定性上更强,虽然仍然能看到一点脚滑问题。
公平性说明
两段视频时长不同,但更长的 Sora 样本仍然更稳定,所以结论依然明显偏向 B。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_1.mp4,B:sora_2_1.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Sora) 1. 提示词还原度 7 9 2. 主体动作正确性 6 8 3. 物理真实性 5 7 4. 镜头运动符合度 8 9 5. 画面稳定性与瑕疵 6 8 6. 电影感与审美完成度 7 9 总分 39 50 2. 视频 A (Seedance) 深度分析 最好的 2 个点: 构图与参考图高度一致性: 视频 A 在色彩基调、山脉轮廓以及人物侧面剪影的构图上,最接近提供的 case_1.png 参考图,呈现出一种宁静的氛围。 裙摆动态: 在极短的时间内,白裙的飘动方向与奔跑方向、风向基本逻辑自洽。 最差的 2 个点: 严重的物理穿模与动作畸变: 仔细观察人物的腿部,尤其是远侧的那条腿,在迈步时出现了明显的形状扭曲,脚踝处甚至出现了瞬时的视觉断裂。 背景闪烁与不稳定性: 背景中的远山和云层在奔跑过程中有明显的“呼吸感”抖动(Tiling artifacts),画面缺乏深度的连贯性。 3. 视频 B (Sora) 深度分析 最好的 2 个点: 卓越的材质与光影表现: 裙摆的质感极佳,半透明的布料在夕阳逆光下的透光效果(SSS材质感)非常真实。金色的轮廓光完美勾勒了发丝和身体边缘,达到了电影级的商业大片质感。 极高的画面细节: 地面的碎石、枯草以及远方山谷的雾气层次感极强,画面稳定性极高,即使在较长的时长内也没有出现明显的形变坍塌。 最差的 2 个点: “月球漫步”现象(Foot Sliding): 物理真实性上的硬伤。人物的脚步与地面的相对速度不匹配,看起来像是在冰面或输送带上滑行,虽然动作优雅,但缺乏扎地的力量感。 裙摆阻力异常: 裙摆在风中的波动频率过快,且在人物向前冲时,裙摆向后飞扬的角度过于夸张,略微带有一点“水下运动”的阻力感,而非空气中的自然状态。 4. 公平性说明 时长差: 视频 A 仅约 2 秒,而视频 B 约为 5 秒。 影响分析: 视频时长越长,维持主体连贯性(Consistency)和物理逻辑的难度呈指数级上升。视频 A 仅在极短的时间内就出现了腿部畸变;而视频 B 在 5 秒的时长内保持了极其稳定的人物形象和环境光影,且成功执行了长距离的侧向平移跟踪拍摄。因此,尽管 B 的时长更长,其表现出的稳定性反而更具压倒性优势,这种时长差并没有造成不公平,反而证明了 B 的技术层级更高。 5. 最终结论 胜者:视频 B (Sora) 理由: 画质代差: 视频 B 的视觉清晰度、光影处理和纹理细节已经接近原生 4K 电影画质,而视频 A 仍带有较明显的 AI 生成感(模糊和闪烁)。 镜头控制力: 视频 B 完美还原了提示词中要求的“平稳横向追踪拍摄(Smooth lateral tracking)”,镜头跟随人物移动的节奏极稳,没有 A 那种背景漂移感。 复杂动态处理: 尽管 B 存在足部打滑的通病,但它在处理“多层动态”(飘动的发丝、透光的白裙、扬起的尘土、移动的背景)时,保持了惊人的逻辑统一。相比之下,视频 A 在较短时间内就已经出现了肢体形变的错误。 总结: 视频 B 在满足所有功能性指令(不准转弯、不准停止、侧面跟踪)的基础上,提供了远超 A 的审美价值和工业级稳定性。
Case 2
胜者:Wan 2.6 Flash重点看云层是否始终包围桥体、不整体漂走,以及玻璃桥反射和慢速步态是否自然。
Wan 2.6 Flash 胜出,因为它真正做到了云层局部呼吸式变化,而不是整体方向性漂移。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Single continuous shot. A person walks slowly forward across a high-altitude glass suspension bridge. Large cloud masses remain surrounding the bridge and valley. Clouds do NOT travel away. They remain present in frame at all times. Cloud motion is minimal and localized: The entire cloud body shifts slightly sideways by a small distance, then stabilizes again. Cloud edges softly expand and contract, like slow breathing. No sweeping drift. No rolling layers. No disappearing clouds. Mist curls gently along cliff faces, then settles. Cloud volume stays consistent. Only subtle positional change and soft shape morphing. Sunlight diffuses through the clouds, creating slow moving highlights on the glass panels. Reflections change gently. Bridge cables respond slightly to calm wind. The person continues walking naturally forward. Camera follows smoothly from behind. Atmosphere feels dreamy, romantic, peaceful. Natural physics only. End with clouds still surrounding the bridge, softly hovering.
A 侧
总分
72 / 100
43 / 60
时长
5.06s
帧率
60
分辨率
1112x834
B 侧
总分
87 / 100
52 / 60
时长
5.01s
帧率
30
分辨率
1764x1176
统一评分表
| 维度 | Seedance 2 Fast | Wan 2.6 Flash |
|---|---|---|
| 提示词符合度 | 6 | 9 |
| 动作 / 运动 | 8 | 9 |
| 物理真实性 | 7 | 8 |
| 镜头控制 | 8 | 9 |
| 稳定性 | 7 | 8 |
| 电影感完成度 | 7 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 保住了暖色调和居中跟拍,但云层大范围漂移,核心指令没有守住。
胜者读数
Wan 在云量稳定、玻璃反射和整体梦幻氛围上都更完整,更贴近提示词要求。
公平性说明
这组时长接近,所以主要差距来自云层控制和桥面光学表现,不是时长差。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_2.mp4,B:wan_2_6_flash_2.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Wan) 1. 提示词还原度 (核心:云不漂走) 6 9 2. 主体动作正确性 (慢速前进) 8 9 3. 物理真实性 (反射/雾气/缆索) 7 8 4. 镜头运动符合度 (平稳跟拍) 8 9 5. 画面稳定性与瑕疵 7 8 6. 梦幻/平静氛围完成度 7 9 总分 43 52 2. 视频 A (Seedance) 深度分析 优点: 色彩还原: 较好地继承了参考图的暖金色调,阳光在云层间的扩散感营造得不错。 构图稳定性: 镜头跟随人物的轴线非常准,人物始终处于画幅中心。 问题: 云层严重漂移(违反核心指令): 提示词明确要求“Clouds do NOT travel away”且“No sweeping drift”。但视频 A 中的云层有非常明显的向左后方大规模位移,感觉更像是狂风吹过,破坏了提示词要求的“平静”感。 玻璃反射逻辑偏差: 地面的反射虽然存在,但随着人物走动,反射影像的透视变化略显僵硬,不够深邃。 水印干扰: 左上角有明显的“AI生成”字样,虽不影响生成逻辑,但影响画面纯净度。 3. 视频 B (Wan) 深度分析 优点: 极佳的云层动态控制(胜出关键): 视频 B 完美捕捉了提示词中“Softly expand and contract, like slow breathing”的描述。云层基本维持在桥梁四周,主要以局部的舒张和微小的位移为主,真正做到了“包围而不流失”。 出色的光学表现: 玻璃桥面的反射非常真实,不仅有人的倒影,还有云雾在玻璃下的深层透视感。阳光在面板上的高光闪烁(highlights)非常细腻且随步伐变动。 节奏感: 人物的步伐节奏非常稳健且轻盈,配合几乎静止的宏观环境,极大地增强了“梦幻、平静”的氛围。 问题: 色调略偏冷: 相比 A 而言,B 的色温稍微偏低了一点点,金色的质感不如 A 浓郁(但依然符合“扩散阳光”的描述)。 边缘细节: 在视频极边缘处,远山的纹理偶有轻微的重组感,但不仔细观察难以察觉。 4. 公平性说明 时长与分辨率: 两个视频时长接近,分辨率和帧率表现均在同一基准线上。 评判重心: 本次评测的核心在于对云层运动的精准控制。提示词中用了大量否定词(No sweeping drift, Clouds do NOT travel away)来强调环境的相对静止与局部微动,这是区分两个模型理解能力的关键点。 5. 最终结论 胜者:视频 B (Wan) 理由: 视频 B 在核心指令遵循度上完胜。提示词中关于云层的限制是非常具体的(要求像呼吸一样波动而非漂流),视频 A 显然将其处理成了常规的、具有方向性的云海流转;而视频 B 成功实现了“局部形变而整体稳定”的复杂动态,这证明了模型对时间轴上物理状态的精细控制力。 此外,视频 B 在玻璃桥的质感、反射的真实性以及氛围的沉浸感上都更胜一筹,完全符合“梦幻、浪漫、平静”的电影感要求。
Case 3
胜者:Wan 2.6重点看固定机位、岩石稳定、水体重量感,以及撞击后的回流是否真实。
Wan 2.6 胜出,因为它把静态岩石和动态水体分得更开,回流也更厚重真实。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Single continuous cinematic shot. A massive ocean wave surges forward and violently crashes into rugged coastal rocks. The wave curls, then explodes on impact - white water and mist burst upward in slow chaotic sheets. Heavy seawater flows back over the dark rocks in thick streams. Smaller secondary waves follow immediately after, creating layered motion. Camera is locked in place, low angle facing the rocks. No camera push-in. No zoom. Only the ocean moves. Water physics are fully realistic: - wave crest collapses naturally - foam spreads outward on impact - spray particles drift in wind - gravity pulls water back into the sea - wet rocks glisten under sunset light Fine mist floats through the air. Wind subtly bends the spray sideways. Golden-hour sunlight passes through airborne droplets, creating glowing highlights. Background waves continue rolling slowly. Foreground wave hits hard. High contrast between dark rocks and bright foam. Ultra-realistic ocean simulation. Natural turbulence. No looping. Energy builds -> impact -> cascading runoff. Mood: powerful, cinematic, raw nature. Strong sense of scale. 5 seconds. End with residual water flowing down rocks while distant waves keep moving.
A 侧
总分
63 / 100
38 / 60
时长
5.06s
帧率
60
分辨率
1112x834
B 侧
总分
90 / 100
54 / 60
时长
5.01s
帧率
30
分辨率
1764x1176
统一评分表
| 维度 | Seedance 2 Fast | Wan 2.6 |
|---|---|---|
| 提示词符合度 | 7 | 9 |
| 动作 / 运动 | 7 | 8 |
| 物理真实性 | 6 | 9 |
| 镜头控制 | 6 | 10 |
| 稳定性 | 5 | 9 |
| 电影感完成度 | 7 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 的爆发感和高光不错,但岩石变形、白浪闪烁和镜头微动都很伤真实性。
胜者读数
Wan 同时守住了固定机位、背景稳定和水体回流厚度,空间层次也更清楚。
公平性说明
两段视频规格基本一致,这组主要比的是场景稳定性和流体物理,不是时长。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_3.mp4,B:wan_2_6_3.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Wan) 1. 提示词还原度 (核心:固定的慢快门感) 7 9 2. 水体物理真实性 (重力/碰撞/飞溅) 6 9 3. 连贯性 (浪头->泡沫->回流) 7 8 4. 镜头运动符合度 (绝对锁定) 6 10 5. 画面稳定性 (场景漂移/形变) 5 9 6. 光影与尺度感 (海浪的重量感) 7 9 总分 38 54 2. 视频 A (Seedance) 深度分析 优点: 爆发力强: 浪尖撞击瞬间产生的飞溅高度非常震撼,较好地表现了“向上的水雾片状爆发(sheets of mist)”。 光影质感: 飞沫在阳光照射下的半透明质感(SSS效果)表现出色,金色的高光点缀非常到位。 问题: 严重的场景漂移(幻觉形变): 仔细观察画面左侧和下方的岩石,在水流冲击时,岩石竟然发生了明显的“生长”和位置偏移。这在物理逻辑上是灾难性的,说明模型未能很好地区分动态流体与静态背景。 水体“数字化”噪点: 白色的浪花部分出现了类似数字噪点的闪烁感(Flicker),水滴的细碎程度不自然,缺乏重力带来的下坠惯性。 镜头微动: 提示词要求“Locked in place”,但 A 存在轻微的视角晃动。 3. 视频 B (Wan) 深度分析 优点: 极致的物理真实感(重量感): 视频 B 的海浪不仅有“形”,更有“质”。海浪撞击后向回流(Runoff)的过程非常符合流体力学,水流顺着岩石缝隙倾泻而下的厚重感(Thick streams)抓得非常准。 绝对稳定的背景: 无论海浪多么剧烈,周围的岩石稳如泰山,没有任何形变或位移,完美符合“Camera is locked”的要求。 层次感分明: 远景的滚滚波浪与近景的剧烈撞击形成了良好的空间纵深感,完全还原了提示词中“Layered motion”的要求。 问题: 浪尖的雾化略快: 浪头在最高点时,水珠过快地消散成了烟雾状,虽然增加了氛围感,但损失了一些大颗水滴破碎的细节。 回弹物理: 在 3 秒左右,极小部分浪花在撞击后有一丝丝不自然的“慢动作回弹”,但不仔细观察很难察觉。 4. 公平性说明 规格一致: 两个视频时长均为 5 秒,且均在 16:9 画幅下表现。 评判准则: 此次评测不仅看“特效是否绚烂”,更看重静态背景的稳定性与重力感。视频 A 在视觉上可能第一眼更抢眼,但它在基础物理常识(岩石不动)上的失败导致其可用性大幅下降。 5. 最终结论 胜者:视频 B (Wan) 理由: 视频 B 在视觉完成度和提示词符合度上实现了双重碾压。 场景稳定性: B 做到了岩石完全不动而水体剧烈运动的完美分离,而 A 的岩石随浪起舞,这是典型的 AI 逻辑缺陷。 物理还原: B 对“重力拉扯水流回海(Gravity pulls water back)”的细节描写极佳,水流在岩石上的挂壁感非常真实。 空间逻辑: B 准确执行了“固定镜头”、“低角度”、“分层运动”等多个精细指令。 总结: 视频 B 展示了一个成熟视频模型应有的时空稳定性,不仅震撼,而且“真实”。
Case 4
胜者:Kling 3重点看前景上升、中景左移、远景右移这三层漂移是否真的同时成立。
Kling 3 胜出,因为它真的执行了分层异向运动,而不是把峡谷做成轻微动态壁纸。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Single continuous cinematic aerial shot. Early morning sunrise over river canyon. Multiple hot air balloons already airborne. IMPORTANT: balloons are NOT static. Each balloon follows a visible trajectory: Foreground balloons rise upward continuously (about one basket height during the shot). Mid-distance balloons drift slowly left. Far balloons drift slowly right. All balloons move at different speeds. No balloon stays fixed relative to landscape. Camera glides forward gently. Foreground balloons visibly change position against canyon cliffs. River reflections slide slowly. Light valley mist flows horizontally. Baskets sway slightly under envelopes. Balloon envelopes breathe subtly with warm air. Natural wind motion. No frozen objects. No static composition. Real physical drift. Romantic cinematic travel atmosphere. Ultra realistic. End with balloons still drifting.
A 侧
总分
62 / 100
37 / 60
时长
5.07s
帧率
30
分辨率
1112x836
B 侧
总分
87 / 100
52 / 60
时长
4.04s
帧率
24
分辨率
1280x720
统一评分表
| 维度 | Seedance 2 Fast | Kling 3 |
|---|---|---|
| 提示词符合度 | 6 | 9 |
| 动作 / 运动 | 5 | 9 |
| 物理真实性 | 6 | 8 |
| 镜头控制 | 7 | 9 |
| 稳定性 | 6 | 8 |
| 电影感完成度 | 7 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 画面好看,但远景气球基本贴在背景上,运动更像伪动态。
胜者读数
Kling 让气球有浮力、篮筐轻晃和明显的深度差漂移,整个航拍场景更像真实旅行片。
公平性说明
Kling 时长更长,但也在更长时间里维持了更多独立轨迹,所以差距依旧有效。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_4.mp4,B:kling_3_4.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Kling) 1. 提示词还原度 (核心:分层漂移) 6 9 2. 主体动作正确性 (非静态/轨迹) 5 9 3. 物理真实性 (悬浮感/惯性) 6 8 4. 镜头运动符合度 (平稳前行) 7 9 5. 画面稳定性与瑕疵 6 8 6. 航拍旅行片审美完成度 7 9 总分 37 52 2. 视频 A (Seedance) 深度分析 优点: 光影还原: 画面色调非常漂亮,完美继承了参考图的霞光质感,峡谷的明暗对比具有较强的视觉冲击力。 构图美感: 气球的分布疏密有致,整体氛围非常符合“浪漫旅行”的基调。 问题: “伪运动”感严重: 画面呈现出一种典型的“静态图局部拉伸”的AI感。虽然气球在动,但远景的气球几乎是完全锁死在背景上的,没有表现出提示词要求的“Far balloons drift slowly right”。 物理逻辑缺失: 前景气球的上升动作不明显,更多是随着镜头推进而产生的透视位移,缺乏真正的物理升力感。 边缘闪烁: 气球在移动时,其边缘与背景峡谷交界处有轻微的“虚影”和“像素溶解”现象,稳定性欠佳。 3. 视频 B (Kling) 深度分析 优点: 精准的轨迹还原(核心胜出点): 视频 B 惊人地还原了提示词中极其复杂的运动指令。你可以清晰地观察到:前景气球在稳步上升,中景的一组气球在向左缓慢横移,而远景的气球确实在向右漂移。这种分层、异向的运动逻辑极大地增强了画面的真实感。 出色的物理模拟: 气球篮筐在吊索下有极其细微的自然晃动,且气球球体有轻微的“呼吸感”,仿佛内部热空气在作用。 动态深度: 随着镜头平稳前推,河流的波光反光随之自然流转,晨雾在峡谷间呈水平流动状,空间立体感极强。 问题: 远景细节微调: 极远处的个别气球在视频最后 1 秒出现了一点点位置跳变,但属于极细微瑕疵。 色彩饱和度: 相比 A 的浓郁,B 的色彩显得更写实、略淡,视觉抓眼度稍逊于 A,但真实感更高。 4. 公平性说明 时长差: 视频 A 约为 2 秒,视频 B 约为 5 秒。 评判逻辑: 视频 B 在更长的时长内维持了多达几十个物体的独立运动轨迹,且没有出现明显的形变坍塌,其技术难度远高于视频 A 的短时间局部位移。时长差不仅没有导致不公平,反而凸显了 B 模型在长序列复杂动力学模拟上的巨大优势。 5. 最终结论 胜者:视频 B (Kling) 理由: 这是一次**“动态理解力”**的代差级对比。 指令达成度: 提示词中最难的部分是“不同距离、不同方向、不同速度”的漂移指令。视频 A 选择了模糊处理(基本整体微动),而视频 B 实现了精准的个别控制,完全符合“No frozen objects”的要求。 物理真实度: 视频 B 的气球是有“重量”和“浮力”的,而视频 A 的气球更像是贴在背景上的剪纸在平移。 场景稳定性: 视频 B 在处理气球遮挡峡谷关系的透视变化时表现得异常稳健,具有极高的视觉完成度,完全达到专业航拍片的标准。
Case 5
胜者:Kling 3重点看低角度并行跟拍、骑手姿态、沙地形变、悬挂表现和 SUV 跟随关系。
Kling 3 胜出,因为它呈现的是更接近真实越野摄影的动态关系,而不是主体在背景上滑动。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Single continuous cinematic shot. Ultra-realistic action cinematography. A motocross rider charges across massive golden desert dunes at real off-road racing speed. The rider leans naturally into sweeping turns - not over-forced - allowing the bike to glide smoothly over soft sand. Rear tire throws sand outward in wide arcs, particles flying with gravity-driven falloff. Behind him, a rugged off-road SUV follows at distance, bouncing rhythmically over dunes, generating rolling dust clouds. Camera tracks beside and slightly ahead of the rider at low angle, close to ground level. Forward momentum feels effortless and powerful. Suspension compresses and rebounds naturally over dune crests. No struggling motion. No stiff steering. The bike flows with terrain. Sand sprays dynamically but never blocks the lens. Wind pushes dust trails backward. Sunlight catches airborne particles, producing glowing highlights. The rider maintains confident athletic posture: - relaxed forward lean - bent elbows - steady throttle control - focused gaze The SUV remains visible through dust in background, headlights shimmering softly. Camera exhibits subtle terrain vibration. No slow motion. Real-world racing speed. Natural physics: - realistic wheel spin - soft dune deformation - gravity-driven sand falloff - turbulent dust behavior - aerodynamic debris trails Golden hour desert lighting. Foreground ultra sharp. Background slight motion blur. Strong depth of field. Camera smoothly matches rider speed, holding him centered in frame. The rider continues accelerating forward while the camera maintains parallel tracking. Sand washes past the lower frame edge only. SUV stays chasing in background. Ending shot: Rider still charging forward, perfectly framed mid-action. No subject exits frame. No impossible motion. No teleporting. Camera holds composition until cut. High kinetic energy. Authentic off-road riding feel. Pure cinematic realism.
A 侧
总分
53 / 100
32 / 60
时长
5.07s
帧率
30
分辨率
1112x836
B 侧
总分
90 / 100
54 / 60
时长
4.04s
帧率
24
分辨率
1280x720
统一评分表
| 维度 | Seedance 2 Fast | Kling 3 |
|---|---|---|
| 提示词符合度 | 6 | 9 |
| 动作 / 运动 | 5 | 9 |
| 物理真实性 | 5 | 9 |
| 镜头控制 | 7 | 10 |
| 稳定性 | 4 | 8 |
| 电影感完成度 | 5 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 的色调和构图不错,但轮胎吃沙、骑手压弯和时间稳定性都不够。
胜者读数
Kling 把压弯、尾沙、悬挂压缩和后方 SUV 的动态联动都做出来了,商业片完成度明显更高。
公平性说明
高速跟拍里更长的片段通常更容易崩坏,但 B 反而更稳,所以这组仍然明确偏向 B。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_5.mp4,B:kling_3_5.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Kling) 1. 提示词还原度 (核心:并行跟拍与动态关系) 6 9 2. 主体动作正确性 (骑手姿态/转弯倾斜) 5 9 3. 物理真实性 (沙地变形/悬挂/扬沙) 5 9 4. 镜头运动符合度 (低角度/并行速度匹配) 7 10 5. 画面稳定性与瑕疵 (形变/瞬移/闪烁) 4 8 6. 越野真实感与商业电影质感 5 9 总分 32 54 2. 视频 A (Seedance) 详细分析 优点: 影调与参考图契合度极高: 完美复刻了 case_5.png 的光影氛围和色彩基调,金色的逆光质感非常出色。 构图标准: 成功维持了低角度且主体居中的构图方式。 问题: 严重的物理“贴纸感”: 骑手与沙地之间缺乏真实的交互。虽然有扬沙,但轮胎似乎并没有深陷或压过沙丘,感觉像是一个动态贴图在背景上滑动。 高频闪烁与形变(严重瑕疵): 在视频约 1-2 秒处,骑手的腿部、机车引擎部位出现了剧烈的像素闪烁和结构坍塌,这种不稳定性在商业片中是不可接受的。 动作僵硬: 骑手的转弯动作非常机械,缺乏越野驾驶中所需的身体平衡调整(Body English),完全没有体现出提示词要求的“Confident athletic posture”。 3. 视频 B (Kling) 详细分析 优点: 卓越的动能与速度感(核心胜出点): 视频 B 的画面张力极强。骑手向左压弯的倾斜角度极其自然,且伴随着轮胎在沙面上切开的深度。这种“Real off-road racing speed”被体现得淋漓尽致。 精妙的物理联动: 尾沙的喷射呈弧线散开,且具有明显的重力下坠感(Gravity-driven falloff)。最令人惊喜的是,背景中的 SUV 在经过沙丘顶部时,确实产生了真实的颠簸(Bouncing rhythmically),且前灯在尘烟中的明暗变化极具层次。 极致的稳定性: 在长达 5 秒的极高速跟拍中,摩托车的结构(轮毂、减震器、排气管)始终如一,没有出现 AI 常见的“零件自我生长”或“轮胎变方”现象。 空间感与交互: 扬尘不仅向后飘散,还与镜头产生了微弱的交互,但如约“从未遮挡镜头”,这种遮挡关系的控制非常高级。 问题: 对比度略高: 部分暗部阴影(如车底)稍显深沉,稍微牺牲了一点点胶片感的柔和度,但增加了动作片的凌厉感。 4. 公平性说明 时长差: 视频 A 仅约 2 秒,视频 B 为 5 秒。 评判逻辑: 这种极高速运动的跟拍,时间越长,画面越容易“崩坏”。视频 B 在长达 5 秒的时长内依然维持了完美的物理稳定性和极高密度的信息量(包括后方 SUV 的表现),而视频 A 仅在 2 秒内就出现了明显的像素坍塌。因此,时长差并未对 A 造成不公,反而进一步证明了 B 模型处理复杂动态的能力领先一个世代。 5. 最终结论 胜者:视频 B (Kling) 理由: 这是一次**“越野驾驶专业性”**的完美呈现。 物理交互: 视频 B 真正理解了什么是“Off-road”。它表现出了悬挂的压缩、沙地的受压形变以及骑手的重心控制。 场景完整性: 提示词要求的“SUV 跟随关系”在 B 中是一次完整的、有叙事感的呈现,而非 A 中背景里一个模糊的、静止不动的方块。 视觉完成度: 视频 B 完全可以不加修改地放入一部顶级户外品牌或越野赛事的商业广告片中。它不仅是“生成了一段视频”,而是“精准执导了一段复杂的动作戏”。 总结: 视频 B 在真实越野感和物理稳定性上获得了压倒性胜利。
Case 6
胜者:Seedance Pro Fast重点看步态稳定、服装纹理、手提包和靴子一致性,以及时尚成片质感。
Seedance Pro Fast 胜出,而且这是一次非常明显的版本升级展示。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Stylish British autumn street scene. A fashionable young woman in full-body view walks confidently forward along a London street covered with fallen leaves. She wears a classic houndstooth coat, knee-high leather boots, beret, sunglasses, and carries a handbag. Camera performs a smooth forward tracking shot, slightly low angle, following her stride. Her hair and coat move naturally in the breeze. Background shows iconic London architecture, red phone booth, passing cars and pedestrians, creating lively urban motion. Natural daylight with soft golden autumn tones. Strong fashion-commercial energy, European luxury street style. Subtle motion blur on passing traffic. Realistic walking speed. High-end cinematic look, shallow depth of field, crisp subject focus. No pose freezing. No slow motion. Continuous movement. Ultra realistic. 5 seconds.
A 侧
总分
60 / 100
36 / 60
时长
5.07s
帧率
30
分辨率
1112x836
B 侧
总分
87 / 100
52 / 60
时长
5.04s
帧率
24
分辨率
1248x704
统一评分表
| 维度 | Seedance 2 Fast | Seedance Pro Fast |
|---|---|---|
| 提示词符合度 | 7 | 9 |
| 动作 / 运动 | 6 | 9 |
| 物理真实性 | 6 | 8 |
| 镜头控制 | 7 | 9 |
| 稳定性 | 5 | 9 |
| 电影感完成度 | 5 | 8 |
Seedance 2 Fast 读数
Seedance 2 Fast 的秋天氛围和镜头角度是对的,但腿部、靴子边缘和背景空间都不够稳。
胜者读数
Seedance Pro Fast 把大衣、手提包、靴子和步态都稳住了,已经接近可直接用的时尚广告素材。
公平性说明
Pro 版本虽然更长,但也在更长时间里保持了更高稳定性,所以时长差不会改变结论。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,针对您提供的提示词、参考图以及 Seedance 旗下的两个版本(A: Seedance 2 Fast,B: Seedance Pro Fast)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance 2 Fast) 视频 B (Seedance Pro Fast) 1. 提示词还原度 (伦敦街景/穿搭细节) 7 9 2. 人物走路姿态 (步态连贯性) 6 9 3. 画面稳定性 (服装/靴子/手提包) 5 9 4. 背景可信度 (车流/电话亭/路人) 6 8 5. 镜头跟拍与时尚感 7 9 6. AI 瑕疵控制 (脸部/四肢边缘) 5 8 总分 36 52 2. 视频 A (Seedance 2 Fast) 详细分析 优点: 影调符合: 较好地还原了提示词要求的“秋天色调”,阳光感和落叶的分布具有不错的美感。 构图标准: 低角度的前进式跟拍构图非常标准,红色电话亭的标志性元素清晰。 问题: 严重的下肢稳定性问题: 仔细观察人物的皮靴和腿部,在迈步过程中出现了明显的“形变”和“像素溶解”现象,靴子的边缘与地面落叶频繁发生闪烁和重叠。 步态僵硬: 走路姿态缺乏真实人类的重心偏移,显得比较机械。 背景漂移: 远处的建筑和经过的车辆在移动过程中有轻微的扭曲(Warping),缺乏坚实的物理空间感。 3. 视频 B (Seedance Pro Fast) 详细分析 优点: 卓越的稳定性(核心胜出点): 相比 A 而言,Pro 版本在稳定性上有了质的飞跃。手提包、千鸟格大衣的纹理、尤其是高难度的膝下皮靴,在 5 秒的时长内保持了极其稳定的轮廓,没有出现任何形变或闪烁。 自然的动态节奏: 人物走动的“自信感”得到了很好的体现,肩膀和腰部的自然摆动符合人体工程学,大衣下摆随风和步伐的飘动非常真实。 时尚大片质感: 浅景深效果处理得更细腻,人物主体非常突出,肤质和光影呈现出一种高级的“商业成片”感。 环境交互: 人物经过落叶地面时,落叶的位移和倒影的变化比 A 更加自然。 问题: 左侧行人瑕疵: 仔细看背景左侧走过的路人,在身体重叠时偶有微小的像素抖动,但不影响主体观看。 面部微动: 墨镜在光影变幻下偶尔有一丝丝反射跳变,但这属于极高频细节瑕疵。 4. 公平性说明 时长对比: 视频 A 实际时长约 2 秒左右,而视频 B 完整运行了 5 秒。 评判逻辑: 视频 B 在时长翻倍的情况下,不仅没有出现 AI 常见的“时间长了就崩坏”的问题,反而比 A 表现出了更高密度的细节和稳定性。这种时长差不仅没有导致不公平,反而全方位证明了 Pro 版本在底层逻辑和时间轴稳定性上的绝对领先。 5. 最终结论 胜者:视频 B (Seedance Pro Fast) 理由: 这是一次非常明显的版本升级展示。 可用性差距: 视频 B 的画面稳定性已经达到了可以直接作为“时尚广告成片”或“穿搭博主素材”的水平;而视频 A 由于腿部和靴子的严重闪烁,只能作为草图演示,无法商用。 物理还原: B 解决了 AI 视频中最难处理的“稳定步态”和“精细织物纹理”问题,千鸟格大衣在行走过程中纹理不乱,是非常强的技术表现。 审美完成度: B 的色彩、肤质、动态模糊都更趋向于真实拍摄的 4K 时尚短片,完全符合“Luxury street style”的定位。 总结: 视频 B 是唯一的胜者,完全符合提示词的所有要求,是一段高质量的商业级视频。
Case 7
胜者:Veo 3.1 Fast重点看大规模车流逻辑、路口脉冲式通过、蓝调时刻灯光变化和去缩微感。
Veo 3.1 Fast 胜出,因为它更像真实城市动态模拟,而不是一张城市图做动画化处理。
参考首帧

原始 Prompt
这里保留的是 benchmark 原始 prompt 文本,不做改写。
Ultra cinematic aerial view of a modern Western metropolis at dusk. The camera looks down over dense downtown streets filled with heavy traffic. Hundreds of cars move continuously in multiple directions, headlights and taillights forming flowing light streams through the city. Traffic moves fast but naturally - vehicles accelerate, slow down, merge, and change lanes realistically. Intersections pulse with motion as cars pass through in waves. Skyscrapers glow with warm window lights while neon signs flicker between buildings. Golden sunset fades into blue hour as city illumination gradually takes over. Soft atmospheric haze hangs between towers. Drone-style wide 16:9 perspective. Strong sense of urban life: cars never stop, streets always active, light constantly shifting. Cinematic color grading, high contrast, realistic lighting. Dynamic motion everywhere: moving vehicles, scrolling traffic, subtle camera drift. Premium commercial look. Hyper realistic. Designed as first frame for fast-paced city video.
A 侧
总分
68 / 100
41 / 60
时长
10.07s
帧率
30
分辨率
1112x836
B 侧
总分
88 / 100
53 / 60
时长
8.00s
帧率
24
分辨率
1280x720
统一评分表
| 维度 | Seedance 2 Fast | Veo 3.1 Fast |
|---|---|---|
| 提示词符合度 | 7 | 9 |
| 动作 / 运动 | 7 | 9 |
| 物理真实性 | 7 | 8 |
| 镜头控制 | 8 | 9 |
| 稳定性 | 5 | 9 |
| 电影感完成度 | 8 | 9 |
Seedance 2 Fast 读数
Seedance 2 Fast 的色彩和构图都强,但车流大多还是简单平移,缺少真正的城市逻辑。
胜者读数
Veo 在路口节奏、车流分批通过、灯光变化和尺度感上都更强,城市更像真的在呼吸。
公平性说明
复杂城市模拟里更长时长更容易出事故,但 Veo 在更长时间里仍然守住了结构和逻辑,所以结论仍然稳固。
这里只展示仓库里保存的原始评测语言版本。
作为一名严格的视频生成评测员,我针对您提供的提示词、参考图以及两个视频文件(A:seedance_2_fast_7.mp4,B:veo_3_1_fast_7.mp4)进行了深度对比分析。 1. 评分总表 维度 视频 A (Seedance) 视频 B (Veo) 1. 城市航拍整体可信度 7 9 2. 车流运动自然度 (核心) 5 9 3. 路口/灯光逻辑性 6 9 4. 镜头漂移稳定性 8 9 5. 暮色氛围还原度 8 9 6. 物理真实性与去缩微感 7 8 总分 41 53 2. 视频 A (Seedance) 详细分析 优点: 影调极致: 画面色彩非常浓郁,金色的余晖在楼宇间形成的冷暖对比极具“商业大片”的滤镜感,最接近参考图 case_7.png 的视觉风格。 构图平衡: 视角选取非常标准,远景的地平线处理得很稳,具备良好的空间纵深感。 问题: 车流“伪运动”: 仔细观察车流,其运动模式更像是将一张静态图层进行了局部的纵向位移或简单的缩放,缺乏提示词要求的“加速、减速、合流、变道”等复杂的个体逻辑。 路口逻辑缺失: 在画面中心的十字路口,车辆的交互感较弱,更像是在一条输送带上滑行。 动态丰富度低: 尽管提示词要求“Dynamic motion everywhere”,但 A 的动态主要集中在平移上,缺乏城市生命力的细节跳动。 3. 视频 B (Veo) 详细分析 优点: 惊人的车流逻辑(核心胜出点): 视频 B 真正实现了“城市呼吸感”。在十字路口,你可以清晰看到车辆分批次通过(Pulse in waves),甚至能观察到远端车辆的转弯和变道动作。这种“个体级”的运动模拟让它完全摆脱了 AI 视频常见的“整体背景滑动感”。 灯光变化的细腻度: 车灯不仅是亮点,还会随着车辆的加减速和透视关系产生自然的亮度起伏和漫反射,表现出了极高的光线追踪逻辑。 大气的蓝调时刻: 画面精准捕捉了从夕阳转入蓝调时刻(Blue Hour)的过渡感,霓虹灯与自然光的融合极其自然,没有明显的滤镜感,更像是一部真实的都市纪录片。 去缩微化: 车辆的比例和移动速度与摩天大楼的尺度匹配得天衣无缝,完全没有“玩具模型”的虚假感。 问题: 画面微震: 在 16:9 广角模式下,远端极高频细节(如远方密集的窗户)在快速移动时偶尔有极其轻微的像素闪烁。 路人细节不可见: 由于视角极高,人物动感几乎无法体现(虽然提示词未强制要求路人)。 4. 公平性说明 时长差: 视频 A 仅约 2 秒,而视频 B 约为 7 秒。 评判逻辑: 这种极高复杂度的城市模拟,时间越长,画面崩溃(如车辆叠罗汉、建筑融化)的风险就越高。视频 B 在长达 7 秒的时间内,不仅维持了建筑的物理稳定性,还展示了完整路口红绿灯轮换的车流节奏。 这种时长下的稳定性对比是压倒性的,因此时长差并未导致不公,反而进一步证明了 B 模型(Veo)的算力和逻辑深度远超 A 模型。 5. 最终结论 胜者:视频 B (Veo) 理由: 这是一次**“动态模拟(Simulation)”对“静态动画化(Animation)”**的胜利。 车流逻辑: 视频 B 还原了提示词中“Intersections pulse with motion”这一最高难度要求,车辆是有意识地在流动,而非简单的贴图平移。 视觉可信度: B 的画面没有 A 那种略显过头的“AI 塑料感”,其真实的空气感、灯光漫反射和自然的镜头缓慢推进,完全符合真实高端都市航拍广告的标准。 提示词符合度: B 几乎逐项命中了提示词中的细节描述(尤其是合流、脉冲式运动、灯光流转),展现了顶级的语义理解和空间建模能力。 总结: 视频 B 是目前 AI 视频生成领域中,处理大规模、多主体动态环境的顶尖水准,是无可争议的胜者。