[ICCV'25] St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World 阅读报告

TL;DR

本文提出了一个 feed-forward 框架，通过引入一种创新的、依赖于时间的 pointmap 表示，并利用一个双分支 Transformer 架构，实现了在统一的世界坐标系中同时进行动态场景的密集追踪与三维重建。

1. 研究动机 (Motivation)

1.1 背景 (Background)

在计算机视觉中，“对应关系”是三维重建的基石。在静态场景中，三维几何和二维对应是同一枚硬币的两面。

1.2 现有方法的局限性 (Gap/Limitations of Existing Work)

当场景变为动态时，这种几何与对应的协同关系似乎被打破了。现有方法，特别是数据驱动的方法，往往将动态场景重建和点追踪（即寻找对应关系）视为两个独立且不相关的任务。作者认为，这是一种“错失的机会”，因为动态场景中的这种协同关系并未消失，只是需要额外理解场景内容如何随时间演化，即3D运动估计（3D点追踪）。

“We argue that this is a missed opportunity; the synergy between 3D reconstruction and 2D correspondence is not lost in dynamic scenes—it simply requires an additional element: understanding how the scene content evolves over time.” (p.1, Section 1)

1.3 本文价值 (Value Proposition)

本文旨在重新建立动态场景下三维重建与追踪之间的联系。

St4RTrack 提出了一个统一的学习框架，能够直接从RGB视频中，在一个一致的世界坐标系里，同时完成动态内容的重建与追踪。这种在世界坐标系中进行追踪的方式，能从根本上解耦场景运动和相机运动。

2. 解决的关键问题与贡献 (Key Problem Solved & Contribution)

2.1 解决的关键技术问题

如何设计一个统一的 feed-forward 模型，它能够仅通过重新定义其输出表示，就能自然地将动态场景的三维重建任务和三维点追踪任务融合在一起，并直接在统一的世界坐标系中输出结果？

2.2 核心贡献

统一的 4D 表示: 本文的核心思想源于一个关键的观察：一个静态的 3D 重建方法（DUSt3R）只需改变其 pointmap 的标注方式，就能适应动态场景（MonST3R）。基于此，本文提出了一种新的、依赖于时间的 pointmap 定义，通过预测两张精心定义的 pointmap 来统一重建与追踪任务。
同时重建与追踪的架构: 实现了一个双分支的 Transformer 架构。其中“重建分支”负责重建目标帧的几何，“追踪分支”则负责预测参考帧的几何内容如何运动到目标帧的时刻。
无需4D真值的自适应方案: 提出了一种新颖的 test-time adaptation 方案。通过一个可微的PnP模块来求解相机参数，进而利用2D追踪的伪标签和单目深度先验构成 reprojection loss，使得模型能够从未标注的真实视频中学习，适应新领域。
新的评测基准：针对世界坐标系下的 3D 追踪任务，建立了一个新的评测基准 WorldTrack，以评估和推动相关研究。

3. 方法详述 (Method)

St4RTrack 的方法核心在于对 pointmap 概念的重新思考和扩展，并围绕此构建了一个双分支 feed-forward 网络，最终通过 reprojection loss 实现自适应。

3.1 统一的 4D 表示 (Unified 4D Representation)

这是理解本文方法的关键。作者引入了时间作为 pointmap 的一个决定性因素。

时间依赖的 Pointmap 定义：作者提出了一个更泛化的 pointmap 表示: $$^{\color{red}a}\mathbf{X}_{\color{green}t}^{\color{blue}b}$$
- $\color{blue}b$: pointmap 所描述的物理内容来源是第 b 帧图像。
- $\color{green}t$: pointmap 所描述的是在 t 时刻的场景状态。
- $\color{red}a$: pointmap 的三维坐标是在第 a 帧的相机坐标下表达的。
St4RTrack 的核心 pipeline：如图 3 所示，对于输入的一对图像 $(\mathbf{I}_1, \mathbf{I}_j)$，St4RTrack 模型 $f_\theta$ 会输出两个 pointmap：
$$f_\theta(\mathbf{I}_1, \mathbf{I}_j)={^1\mathbf{X}^1_j, ^1\mathbf{X}^j_j}$$
- $^1\mathbf{X}^j_j$（重建分支）：这个 pointmap 描述的是第 j 帧的内容，在第 j 帧的时刻，在第 1 帧的坐标系下表达。这本质上就是动态场景重建：将 j 帧的场景重建到 1 帧的坐标系下。
- $^1\mathbf{X}^1_j$（追踪分支）：这个 pointmap 描述的是第 1 帧的内容，在第 j 帧的时刻，在第 1 帧的坐标系下表达。这本质上就是 3D 点追踪：它回答了“第 1 帧的那些点，在第 j 帧的那个时刻，移动到了世界坐标系下的什么位置？”

当处理整个视频时，模型始终将第一帧 $\mathbf{I}_1$ 作为参考（即世界坐标），依次计算 $f_\theta(\mathbf{I}_1, \mathbf{I}_j)$ 对 $(j=1,2,\cdots, T)$。这样，输出的 $^1\mathbf{X}^1_j$ 序列就构成了对第一帧所有点的密集 3D 追踪轨迹，而 $^1\mathbf{X}^j_j$ 序列则构成了整个视频的动态三维重建。

3.2 联合学习 (Joint Learning)

网络架构：St4RTrack 采用了一个与 DUSt3R 类似的双分支（siamese）Transformer 架构。两个输入图像 $\mathbf{I}_1, \mathbf{I}_j$ 分别通过 ViT Encoder，然后在 Decoder 中通过自注意力和交叉注意力进行信息交互，最终由不同的 Head 输出各自的 pointmap。虽然两个分支共享结构，但它们的目标不同，分别对应“最终”和“重建”。
有监督预训练：由于追踪分支需要知道点在世界坐标系中的真实运动，模型首先在提供完整 4D 信息的合成数据集（如 Point Odyssey, Dynamic Replica）上进行预训练。使用 ground-truth 的相机参数、深度图和顶点轨迹来监督两个分支的 pointmap 输出。

3.3 无 4D 标签的自适应 (Adapt to Any Video)

这是本文的另一个亮点，使得模型能够应用于没有4D真值的真实视频。

3.3.1 可微的相机参数求解

模型首先像 DUSt3R 一样，从追踪分支的输出 $^1\mathbf{X}^1_1$ 中估计出相机内参 $\mathbf{K}$。
然后，利用重建分支的输出 $^1\mathbf{X}^j_j$。这个输出为第 j 帧的每个像素 $\mathbf{x}^{j,n}$ 提供了一个在世界坐标系（即第 1 帧坐标系）下的 3D 坐标 $\mathbf{X}^{j,n}_j$。这就构成了一组 2D-3D 对应点。
利用这些对应，可以通过 PnP 算法求解第 j 帧的相机外参 $\mathbf{P}^j = [ \mathbf{R}^j | \mathbf{T}^j ]$。
为了让损失能够反向传播，作者采用了一个可微的 PnP 求解器（基于 Gauss-Newton）。

3.3.2 Reprojection Loss

一旦获得了可微的相机位姿 $\mathbf{P}^j$，就可以构建用于自监督优化的 reprojection loss。这个损失由三个部分构成

$\mathcal{L}_\text{traj}$（轨迹损失）：将追踪分支输出的 3D 点 $^1\mathbf{X}^1_j$ 投影回第 j 帧的图像平面，得到预测的 2D 轨迹点 $\hat{\mathbf{x}}^{j,n}$。然后，将其与一个强大的现成 2D 追踪器（如CoTracker3）提供的伪标签 $\mathbf{x}^{j,n}_\text{trk}$ 进行比较，计算尺度不变的 L2 损失。
$\mathcal{L}_\text{depth}$（深度损失）：将重建分支输出的 3D 点 $^1\mathbf{X}^j_j$ 变换到第 j 帧的相机坐标系下，得到预测的深度 $z^{j,n}_\text{proj}$。然后，将其与一个强大的现成单目深度估计模型（如MoGe）提供的伪标签 $z^{j,n}_\text{mono}$ 进行比较，计算尺度不变的 L2 损失。
$\mathcal{L}_\text{align}$（3D自洽损失）：这是一个 3D 空间中的一致性约束。它要求对于第 1 帧中那些在第 j 帧依然可见的点，其在追踪分支中的 3D 位置 $^1\mathbf{X}^{1,n}_j$，应该与其对应点在重建分支中的 3D 位置 $^1\mathbf{X}^{j,n'}_j$ 尽可能接近。这确保了两个分支在同一时刻对同一物理点的预测是一致的。

通过最小化总的 reprojection loss，模型可以在测试时对新的、无标签的视频进行 fine-tuning（test-time adaptation），从而弥补合成数据与真实世界之间的领域鸿沟。在自适应时，作者选择冻结重建分支，以保留从预训练中学到的视图对齐能力。

4. 实验分析 (Experiments)

4.1 3D Tracking in World Coordinates

Tab. 1. World Coordinate 3D Point Tracking

实验结果显示，St4RTrack 在新提出的 WorldTrack 基准上取得了全面的SOTA性能。值得注意的是，它显著优于那些复杂的组合基线，证明了其统一建模的优越性。即使在没有相机运动的 Panoptic Studio 数据集上，它的表现也优于专门的相机空间追踪器 SpatialTracker。

4.2 Dynamic 3D Reconstruction

Tab. 2. World Coordinate 3D Reconstruction

在重建任务上，St4RTrack 同样达到了SOTA水平。它甚至超过了那些使用了额外全局对齐（Global Alignment）步骤的 MonST3R 等方法。这进一步凸显了其联合进行追踪与重建所带来的好处。

4.3 Ablation Study

预训练的必要性: 图 5 的定性比较清晰地显示，如果没有在合成数据集上进行预训练来学习本文提出的4D表示，即使进行 test-time adaptation，模型的追踪和重建两个分支的输出也无法对齐，效果很差。
Test-Time Adaptation (TTA)的有效性: 图 5 同样证明，TTA能够有效修正模型在真实数据上的漂移问题，使追踪和重建结果更精确。表 6 的结果也显示，TTA带来了显著的性能提升。
Reprojection Loss 各部分的贡献：表 6 的最后三行显示，在TTA中去掉轨迹损失、深度损失或3D自洽损失中的任何一项，都会导致性能下降，证明了这三个损失分量对于模型的自适应都至关重要。

Tab. 6. World Coordinate 3D Tracking (Median-Scale) （这个表在原论文的补充材料中）

5. 批判性思考 (Critical Analysis & Personal Thoughts)

5.1 优点 (Strengths)

概念的优雅与统一: 本文最大的亮点在于其思想的统一性。通过对 pointmap 表示进行巧妙的重新定义，将追踪和重建这两个看似独立的任务，内生地、优雅地统一到了一个框架下。这种“表示即方案”的思路极具启发性。
直击问题本质: 它直接在世界坐标系中进行操作，从根本上解决了相机运动和物体运动的纠缠问题，而不是像其他方法那样进行“解耦”或“分离”。这是一种更直接、更符合第一性原理的解决方案。
创新的自适应机制: Test-time adaptation 的设计非常巧妙。它通过可微的 PnP 求解器和利用现成模型作为伪标签的 reprojection loss，为如何让一个在合成数据上训练的复杂 4D 模型成功应用于无标签的真实世界视频，提供了一个非常有效的范本。

5.2 潜在缺点/疑问 (Weaknesses/Questions)

对锚定帧的依赖: 整个框架将第一帧作为世界坐标系的绝对参考。这意味着如果视频的第一帧质量不佳（例如，模糊、遮挡严重），可能会影响后续所有帧的重建和追踪精度。整个系统的“地基”完全由第一帧决定。
长视频的可扩展性: St4RTrack 采用的是将每一帧都与第一帧配对的策略。对于非常长的视频，这种方法可能会忽略相邻帧之间丰富的时序信息。作者在讨论部分也承认了这是一个局限，并提出未来可以引入跨多帧的 temporal attention 来缓解。
Test-Time Adaptation 的成本: 虽然 TTA 效果显著，但它需要在测试时对每个视频序列进行额外的优化（在4块A100上约需5分钟）。这相对于纯粹的 feed-forward 推理（30 FPS），在需要即时响应的应用中是一个不可忽视的成本。

5.3 启发/可借鉴点 (Insights/Takeaways)

表示的力量: 这篇论文再次证明，一个好的数据表示（Representation）本身就是一种解决方案。通过引入时间维度，作者将一个复杂的多任务问题转化为了一个统一的表示预测问题。
利用先验进行自监督: “利用现成的、强大的模型（如CoTracker3, MoGe）的输出作为伪标签来构建损失函数”是一种非常实用的策略。这使得模型可以在没有昂贵真值标注的情况下，从海量真实数据中学习。
Sim-to-Real的有效路径: “在合成数据上预训练以学习核心概念和表示” + “在真实数据上通过自监督损失进行微调/自适应”，是解决模拟到现实（Sim-to-Real）领域鸿沟的一条黄金路径。

TL;DR#

1. 研究动机 (Motivation)#

1.1 背景 (Background)#

1.2 现有方法的局限性 (Gap/Limitations of Existing Work)#

1.3 本文价值 (Value Proposition)#

2. 解决的关键问题与贡献 (Key Problem Solved & Contribution)#

2.1 解决的关键技术问题#

2.2 核心贡献#

3. 方法详述 (Method)#

3.1 统一的 4D 表示 (Unified 4D Representation)#

3.2 联合学习 (Joint Learning)#

3.3 无 4D 标签的自适应 (Adapt to Any Video)#

3.3.1 可微的相机参数求解#

3.3.2 Reprojection Loss#

4. 实验分析 (Experiments)#

4.1 3D Tracking in World Coordinates#

4.2 Dynamic 3D Reconstruction#

4.3 Ablation Study#

5. 批判性思考 (Critical Analysis & Personal Thoughts)#

5.1 优点 (Strengths)#

5.2 潜在缺点/疑问 (Weaknesses/Questions)#

5.3 启发/可借鉴点 (Insights/Takeaways)#