这篇文章提出了一种基于 3D 点轨迹 (3D Point Tracks) 的视频生成式编辑框架,能够同时精确控制摄像机运动和物体运动。
1. 研究动机 (Motivation)
在视频编辑领域,精确控制“运动”(Motion)一直是一个巨大挑战,现有的方法存在明显的局限性:
- Image-to-Video (I2V) 方法的缺陷:如 TrajAttn, DaS 等。它们通常只基于第一帧图像生成视频,导致丢失了原视频后续帧的上下文信息,背景和物体的一致性较差。
- Video-to-Video (V2V) 方法的缺陷:
- 摄像机控制类 (Camera-controlled):如 ReCamMaster,只能改变视角,无法编辑物体本身的动作。
- Inpainting 类:依赖于简单的扭曲和补全,当物体发生复杂运动或遮挡时,容易产生伪影(如无法正确处理物体移动后的阴影或水花)。
目标:提出一种统一的框架,既能利用原视频的全部上下文,又能精确地联合编辑摄像机视角和物体运动。
2. 核心方法:Edit-by-Track (Methodology)
该论文提出了一种基于 3D 点轨迹 条件的 V2V 扩散模型框架。
2.1 为什么选择 3D 点轨迹?
- 统一表征:3D 点轨迹可以同时表示摄像机运动(背景点)和物体运动(前景点)。
- 深度感知:相比 2D 轨迹,3D 轨迹提供了显式的深度线索,能够帮助模型处理遮挡关系(Occlusion)和深度排序,实现更精确的编辑。
2.2 模型架构
基于预训练的 Text-to-Video (T2V) 模型 Wan-2.1 进行微调 ,引入了核心组件 3D Track Conditioner:
- 输入处理:
- 输入源视频 ($V_{\text{src}}$) 被编码为 Latent tokens。
- 用户编辑后的 3D 轨迹被投影到 2D 屏幕坐标,并保留深度信息 ($z$)。
- 3D Track Conditioner (核心创新):
- Sampling (采样):利用 Cross-Attention,根据源轨迹从源视频特征中“提取”视觉上下文。
- Splatting (抛雪球/泼溅):利用 Cross-Attention,将提取的特征根据目标轨迹“泼溅”到目标视频的特征空间中。
- 这种机制建立了源视频和目标视频之间的稀疏对应关系,实现了像素级的搬运和重组。
3. 训练策略:两阶段微调 (Two-Stage Training)
由于缺乏完美的“成对”训练数据(即:同一场景、不同运动的视频对),作者设计了两阶段策略:
- Stage 1: 合成数据启动 (Synthetic Data Bootstrapping)
- 数据来源:使用 Blender 生成合成数据(Mixamo 人体动画 + Kubric 背景)。
- 目的:拥有完美的 Ground Truth 3D 轨迹,让模型初步学会听从轨迹指令进行运动控制。
- Stage 2: 真实数据微调 (Real Data Fine-tuning)
- 数据构建:从单目真实视频中采样两个不连续的片段(Non-contiguous clips)。利用视频本身的时间跨度来模拟“源视频”到“目标视频”的运动变化(例如摄像机移动了,物体动作变了)。
- 轨迹扰动 (Track Perturbation):为了应对真实视频中 3D 轨迹估计的噪声,训练时主动给目标轨迹添加噪声(如沿极线抖动、线性漂移),提高推理时的鲁棒性。
4. 应用场景 (Applications)
得益于 3D 轨迹的灵活性,该模型支持多种编辑任务:
- 联合运动编辑:同时改变摄像机视角和物体运动(例如:让滑板少年换个方向滑,同时摄像机拉高)。
- 非刚体形变 (Non-rigid Deformation):例如拉长一只狗的身体,或改变其形状。
- 人体动作迁移 (Human Motion Transfer):结合 SMPL-X 参数,将一个人的动作迁移到视频中的人物上。
- 物体移除与复制:通过将轨迹移出画面实现移除,或复制轨迹实现物体克隆。
以上示例都可以去该工作的主页预览:edit-by-track
5. 实验结果 (Experiments)
5.1 定量评估
- 在 DyCheck 数据集上,该方法在 PSNR, SSIM, LPIPS 等指标上均优于现有的 I2V (如 TrajAttn) 和 V2V (如 GEN3C) 方法。
- 在 MiraData 数据集(野外真实视频)上,取得了最低的端点误差 (EPE),证明了其运动控制的准确性。
5.2 定性对比
- 相比 I2V 方法:Edit-by-Track 能够保持背景和物体外观的高度一致性,不会出现“失忆”或形变。
- 相比 Inpainting V2V 方法:能够正确生成物体移动后的物理伴随效应(如原来的位置不会留下鬼影,新位置有正确的光影)。
6. 局限性和总结 (Conclusion)
6.1 局限性
- 对于密集的小物体轨迹(如小物体的大幅度翻转),可能会出现视觉失真。
- 难以生成复杂的物理流体效果(如倒咖啡时,咖啡与牛奶的混合效果无法凭空生成)。
6.2 总结
Edit-by-Track 是第一个通过 3D 点轨迹实现联合摄像机与物体运动编辑的 V2V 框架。通过创新的 3D Track Conditioner 和两阶段训练策略,它解决了视频编辑中上下文保持和精确运动控制的难题。