0. 引言
随着NeRF、Gaussian Splatting等表示方法的发展,动态场景的4D重建与生成 已成为计算机视觉与计算机图形学的研究前沿。与静态3D重建相比,4D重建不仅要求恢复三维结构与外观,还要建模其随时间变化的运动与形变,因此本质上是一个“不适定”的逆问题,具有极大挑战。
然而,目前许多4D生成相关研究依赖大规模扩散模型或生成式NeRF,往往需要昂贵的算力和海量训练数据。这使得资源有限的研究团队难以直接切入。相比之下,4D重建 为我们提供了一条更加务实且具创新潜力的研究路径:通过结合预训练模型、点跟踪、以及经典几何优化等轻量先验,可以在有限算力下实现高质量的动态场景恢复。
本综述旨在:
- 回顾近年来4D动态场景重建的最新进展,重点关注新型表示方法与3D点跟踪结合的两大方向;
- 分析这些工作的核心思想、算力需求与适用性;
- 基于此提出若干可行的研究选题,特别是适合有限算力条件下的创新路线,为后续 CVPR 2026 等会议的投稿提供参考。
1. 背景与动机
1.1. 4D 重建与生成概念
“4D Reconstruction & Generation”指的是对动态3D场景(即随时间变化的三维场景)的建模与合成。其中4D通常表示在三维空间上随时间推移的变化。动态场景重建要求我们从输入(如单目视频、多目视频等)中重建出场景在整个时间序列中的几何结构和外观,进而可以实现动态场景的新视角合成或动画重现。
这一问题非常具有挑战性,因为相比静态3D重建,多了时间维度的运动/形变因素,解的不确定性更高,是一个“不适定”的逆问题。同时,4D生成(直接从文本/图片/视频生成动态场景)的任务更为困难,往往需要大规模模型(例如扩散模型、生成式NeRF等)和海量算力支持。
1.2. 算力限制考量
由于实验室算力有限,直接训练或微调基础模型 (foundation models) 来完成4D生成是不现实的。同时,目前不少4D生成相关工作(如大规模视频生成模型)对算力要求极高,不适合作为初期研究切入点。因此,聚焦于4D重建是较为明智的选择:我们可以利用现有的视频/图像数据,通过算法和较小规模的模型,在有限算力下实现动态场景的重建。这也契合当前计算机视觉领域的一个趋势,即尽可能借助已有的预训练模型或高效算法,避开从零训练超大模型。接下来,我们将回归近期4D重建领域的重要进展,并基于这些工作提出的可行的研究课题设想。
2. 4D重建最新进展简述
近年来,随着NeRF及相关技术的发展,动态场景的4D重建成为计算机视觉和图形学研究的热点。一方面,有研究致力于设计新的4D表示方法来高效表达动态场景;另一方面,也有工作尝试将3D点追踪 (point tracking) 与重建结合,以提升动态重建的鲁棒性和精度。以下我们按照这两个脉络分别介绍最新成果:
2.1. 基于新型表示的动态4D重建
Gaussian Splatting方法与动态NeRF:静态NeRF都发展催生了Gaussian Splatting等更高效的表示方法,将场景表示为一系列高斯体元以加速渲染和优化。最近,这类思路被拓展到动态场景中,例如CVPR 2025的Mosca和FreeTimeGS。
- MoSca (CVPR 2025) - 4D Motion Scaffolds:MoSca提出了一套现代4D重建系统,用于从随手拍摄的单目视频中重建动态场景并合成新视角。它的核心是引入了一种运动脚手架 (Motion Scaffold) 的中间表示,将视频提升到一个能紧凑平滑编码底层运动/形变的4D表示。MoSca利用基础视觉模型的先验知识(如预训练的深度、光流等模型输出)来辅助这个Motion Scaffold的建立。在此基础上,场景的几何和外观通过锚定在脚手架上的高斯来表示,并使用Gaussian Splatting进行优化。值得一提的是,MoSca还集成了传统视觉的技巧:通过在不依赖外部工具的情况下,对相机焦距和位姿执行bundle adjustment(捆绑调整)优化,从而提升重建的准确性。实验结果表明,MoSca在动态新视角合成基准上达到了新的SOTA(state-of-the-art),在真实视频上也展现了出色效果。它证明了利用预训练模型先验+显式4D表示(运动场+高斯体元)+传统BA优化的混合方案,可以在有限数据和算力下取得优异的动态重建和渲染效果。

Fig. 1. MoSca Overview
- FreeTimeGS (CVPR 2025) – Free Gaussian Splatting: FreeTimeGS侧重于解决动态场景中复杂运动带来的挑战。之前的方法往往假设一个公共的规范空间 (canonical space),并学习一个变形场将规范空间下的静态场景映射到各帧,这样可以实现实时的动态新视角合成。但这种思路在剧烈或复杂运动场景下难以奏效,一个主要原因是全局变形场的优化难度很大。FreeTimeGS针对这一问题提出了一种全新的4D高斯表示:允许高斯原语在时间和空间上“自由”出现或消失。也就是说,并不假设场景中每个点始终存在于所有帧,而是允许在需要时引入新的高斯来表示新出现的结构。这种表示灵活性更强,显著提高了对复杂动态场景的刻画能力。此外,每个高斯还被赋予一个运动函数,使其能够随时间平滑移动到相邻位置,以减少冗余并捕捉连续运动。通过在多个数据集上的实验,FreeTimeGS的渲染质量大幅超越近期方法。总的来看,FreeTimeGS表明,通过放弃固定的规范场景假设、采用可动态生成/消亡的点云高斯表示并给每个点添加运动模型,可以更好地适应复杂的动态变化。

Fig. 2. FreeTimeGS Overview
以上两项工作代表了动态NeRF/场景表示方向的前沿进展。它们共同特点是:利用更灵活高效的表示(如高斯体元)来编码4D场景,并结合一定的先验(无论是基础模型知识还是对运动规律的显式假设),从而在无需极端算力的情况下取得优秀效果。这类方法通常需要对每个新视频进行优化(类似于NeRF的test-time optimization),但由于表示简洁,优化效率相对可控。此外,它们也能自然产生密集的动态几何和纹理结果,利于后续应用。
2.2 结合3D点追踪的4D重建
另一条重要路线是将3D点的时空跟踪(tracking)与4D重建融合。传统上,结构重建和运动跟踪是不同任务,但在动态场景下它们密不可分:正确的重建依赖准确的点对应和相机运动估计,而动态物体的准确跟踪也依赖良好的三维结构感知。2025年前后有多项工作尝试统一或协同解决这两个问题,在有限算力条件下,这类方法尤其有吸引力,因为它们往往引入较少参数(有时结合传统算法)或利用预训练跟踪模型来简化重建。下面介绍三项代表性工作:
- SpatialTrackerV2 (ICCV 2025) – 端到端3D点跟踪框架: SpatialTrackerV2提出了首个统一的端到端3D点跟踪模型,可从单目视频中直接估计任意2D像素对应的世界坐标系下3D运动轨迹。与以往需要分别调用深度估计、光流、SLAM等模块的方法不同,SpatialTrackerV2在一个差分可训练的架构中同时学习场景几何、相机运动(自运动)以及逐像素的细粒度3D运动。这种统一设计使其能够在大规模多样的数据上进行可扩展训练(包括合成序列、有姿态和深度标注的视频,甚至无标注的野外视频)。训练好的模型对任意新视频推理非常高效,报告称每段序列仅需10–20秒即可输出完整的相机轨迹、稠密点轨迹和场景结构。得益于联合学习几何和运动,SpatialTrackerV2在3D点跟踪准确性上明显超越以往方法,同时在2D跟踪和动态3D重建任务上也取得了优秀结果。这一成果表明,通过充分利用数据驱动的方法将SLAM式的多模块流程融合为单一网络,可以极大提升动态场景理解能力。不过,需要注意的是训练这样的大模型本身算力需求不菲(作者结合了高校和企业资源,训练集包括合成和真实数据)。幸而作者提供了预训练模型和演示——这意味着研究者可以在有限算力下使用该模型的能力,而不必从头训练。

Fig. 3. SpatialTrackerV2 Overview
- St4RTrack (ICCV 2025) – 同时4D重建与跟踪: St4RTrack关注在世界坐标系下同时完成动态重建和点跟踪。它是一个前向(feed-forward)的框架:通过输入两帧(时间上不同)的图像,网络输出这两帧在统一世界坐标和相同时间戳下的两幅3D点图(point maps)。直观地说,St4RTrack预测了第一帧中的各点在第j帧中的对应3D位置(实现跟踪),同时预测第j帧自身的3D几何结构在世界坐标下的位置(实现重建)。通过将第一帧与序列中每一个后续帧两两喂入并链式相连,能得到全视频范围的长时对应关系和重建结果。重要的是,St4RTrack不需要4D真值监督:作者先在三种合成数据上进行了基本训练(即使数据规模较小且合成),然后提出一种自适应fine-tune策略,利用重投影损失来自适应任意真实视频。例如,只需利用2D轨迹(光流)和单目深度等可从现有模型获取的弱监督信号,就能对模型进行细调,使其适应复杂真实场景。这种“先合成训练+无真值自适应”的思路使得St4RTrack能在不依赖昂贵标注的情况下应用于野外视频,并取得优异效果。作者还构建了一个新的世界坐标系跟踪基准 (WorldTrack) 来评测方法效果,结果显示相比将重建和跟踪拆开的组合方法,St4RTrack在长程跟踪精度(APD指标)和ATE等误差上表现最佳。其重建质量也与专用的动态重建方法相当,有竞争力。总之,St4RTrack展示了通过新颖的网络表示(两帧点图、世界坐标统一)和自监督适配,可以实现动态场景高效、统一的跟踪与重建。这一方法依赖深度网络推理,但由于是前向计算,推理效率高;需要的训练数据少且偏合成,使得复现实验的算力需求相对可控。

Fig. 4. St4RTrack
- BA-Track (ICCV 2025 Oral) – Bundle Adjustment与学习跟踪融合: BA-Track(论文题目“Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction”)旨在将经典SLAM里的Bundle Adjustment(BA)思想重新带回动态场景重建中。传统SLAM假定场景静止,直接对动态视频BA会失败或需要滤除运动物体。而BA-Track的策略是借助学习的3D点跟踪前端来进行运动分解:它利用一个3D点跟踪器获取观测到的动态物体运动,将其分解为相机引起的运动和物体本身的运动。通过只将相机运动分量提交给BA模块优化,相当于在虚拟的“静态场景”上做BA,从而可以稳健地联合优化相机位姿和所有场景点。动态物体的不一致运动不再破坏BA,因为这些运动被分解、隔离了。此外,作者还提出结合尺度地图(scale maps)的轻量后处理,保证跨帧深度的一致尺度。整个框架融合了传统BA内核和鲁棒的学习型3D点跟踪前端,并集成了运动分解、BA优化和深度一致性步骤。结果是:BA-Track能够准确地估计相机轨迹,并生成时间上一致、尺度正确的稠密重建,包括场景中的静态和动态元素。在有挑战性的动态视频数据集上,BA-Track显著提升了相机位姿估计和3D重建精度,相比现有技术取得了大的改进。这一工作直接体现了“用3D点跟踪简化4D重建”的理念:通过点跟踪获取关于运动的先验知识,再利用经典优化算法解算结构,从而避免了纯学习方法可能出现的不稳定,也克服了传统方法不擅长动态的弱点。

Fig. 5. BA-Track Overview
上述跟踪融合类方法从不同角度将时空对应融入了重建过程:SpatialTrackerV2和St4RTrack走的是端到端学习路线,通过统一网络架构直接输出跟踪+重建效果;BA-Track则是深度+优化融合,利用学习方法提供线索再用经典优化确保精度。这些方法充分利用了3D点轨迹这一中间信息:一方面,点轨迹提供了跨帧关联,可以将动态物体的运动与相机运动解耦;另一方面,点轨迹也约束了场景的几何形状,使得重建算法有据可依、更快收敛。对于算力有限的研究者来说,跟踪融合方案很有吸引力,因为我们可以借助预训练的跟踪模型或已有的光流、深度工具来获取这些轨迹/对应关系,而不必从零训练庞大模型,同时再通过优化或小规模网络完成精细重建。
3. 潜在研究课题与创新思路
结合以上对最新文献的回顾,这里针对CVPR 2026的时间节点,提出若干可行且新颖的研究方向建议。这些设想特别考虑了有限算力的约束,旨在通过算法创新和巧妙结合现有工具,实现对4D重建问题的突破。
3.1 方向一:基于3D点跟踪的高效4D重建
核心思路:正如设想的“4D Reconstruction Made Easier with 3D Point Tracking”,充分利用3D点轨迹来降低动态重建的难度和计算量。具体而言,可以设计一个管线:首先采用3D点跟踪获取视频中稠密/稀疏的点对应关系,然后将这些对应作为先验或约束,融入到动态重建的模型中。例如:
- 用点轨迹初始化或引导形变场:在经典动态NeRF或Gaussian Splitting优化中,最大的难点在于求解每个点随时间的形变。如果预先由3D点追踪获得了对应关系,我们就可以推断每个点在不同帧的位置,从而得到一个初始的运动场估计。重建算法可以以此为初值进行优化,或者在损失函数中添加约束,使其预测的运动不要偏离这些观测轨迹。这将大幅缩小形变场的搜索空间,使优化更稳健高效。
- 将跟踪结果作为稀疏监督信号:即使不直接用于初始化,也可以在训练动态重建模型(比如训练一个小型网络来表示动态场景)时,将跟踪得到的3D对应用于监督。例如,要求模型在时间$t_1$和$t_2$输出的点云,对应跟踪到的同一点距离要接近0(保持时序一致性)。这种稀疏监督不需要真值4D标签,利用的是由算法得到的弱标签,有点类似St4RTrack利用重投影自监督。因为跟踪本身可能有噪声,可以设计鲁棒的loss或筛选可靠轨迹来提高效果。
- 结合BA-Track思想进行相机优化:点轨迹还能帮助解算相机运动。BA-Track已经证明,将动态物体运动分解开后,可以对整个场景做BA以求相机pose。我设想的方案中,全段跟踪给出每帧相对于参考帧的3D点云配准,那么可以固定点对应关系,利用BA优化相机参数和点深度,从而得到准确的相机轨迹和初步结构。这一步的结果又能进一步喂给动态NeRF等方法,作为先验锁定相机参数和部分几何,使剩下任务(比如精细纹理、形变细节)更容易。
3.2 方向二:面向对象的分层4D重建
核心思路:动态场景往往由多个运动主体和背景组成。如果试图用一个单一模型表示整个场景的所有动态,可能过于复杂、低效。一个自然的想法是分而治之:按照场景的语义和运动模式,将其分解为若干字部分,各自重建,再融合。具体来说:
- 运动分组与对象分割:可以借助于训练的分割模型(如Segment Anything Model, SAM)在关键帧将场景中不同对象/人物/背景分离出粗略的掩膜。结合3D点跟踪,可以识别哪些点轨迹属于同一刚体或同一物体。这类似于生成每个主要运动体的“点轨迹簇”。例如,一辆行驶的汽车、一个走动的人,他们身上的点应具有共同的刚体运动分量,可通过分析轨迹的相对运动将其聚类。
- 子空间重建:对于每个分离出的运动对象,建立独立的动态重建模型。例如,可为每个对象维护一个小型NeRF/高斯模型来表示其3D形状和纹理,并同时学习一个该对象自身的运动场(通常可假设为缸体或可除去微变形)。背景静态部分则用常规3D重建方法获取。如果对象本身是非刚体(如人软体运动),也可以用一个小的4D模型(如Canonical体+变形场)专门处理。由于每个模型只需关注局部区域,参数量和优化难度都降低,所需算力也更小。
- 全局融合:将各对象的重建结果注册到全局世界坐标下。由于先前步骤中每个对象模型都可以通过其轨迹与相机运动确定全局位姿,我们可以在渲染时将它们组合,或者进一步优化边界过渡,使对象与背景无缝融合为完整场景。BA-Track的做法相当于只区分了“静止背景”和“动态物体”两类;我们这里设想扩展为多物体,更细粒度的分层。
优势与创新:这种对象级4D重建思路可以视作传统多目标跟踪(MOT)与多体SLAM的延伸。在CV领域,单人体或单物体的动态重建已有大量研究,能在单对象场景下取得不错效果。然而,当场景同时有多个人物或物体互动时,单一模型常常力不从心。我们提出的分而治之方案,将复杂场景解构,每部分使用专门模型处理,大大降低了单个模型的复杂度。而难点在于如何自动地进行运动分组和最终融合,这是研究创新点所在。近期的SpatialTrackerV2和St4RTrack已经提供了获取稠密点轨迹的手段,我们可以基于这些轨迹做后续分析,实现自动化的运动分解。如果成功,这将是一个很有新意的成果:它介于完全端到端(黑盒)的方法和完全手工指定方法之间,利用算法从数据中挖掘场景结构,再分别应用优化,在有限算力条件下有望实现对复杂动态场景的高质量重建。
3.3 方向三:融合多源先验的轻量4D重建管线
核心思路:借鉴MoSca利用基础模型先验的思路和BA-Track结合传统BA的思路,我们可以构建一个融合多种轻量级预训练模型与经典算法的杂交管线,达到用较小计算代价解决4D重建的模型。具体而言:
- 深度和光流先验:充分利用现成的单目深度估计、光流估计算法(例如MiDaS深度、RAFT光流等)。这些模型经过大规模训练,本身在普通硬件上就能给出不错结果。我们可以对输入视频先运行这些模块,获取每帧的深度粗估计和相邻帧像素对应关系。这样,相当于为重建提供了初始几何和运动约束。MoSca中正是利用了“foundation models”的先验将视频提升到Motion Scaffold表示——比如可能用了于训练光流来推断初步的运动场架构。在我们的设计中,可以将深度先验用于初始化高斯点云或NeRF的密度场,将光流先验用于初始化/监督运动场。
- 经典优化模块插入:在管线的关键步骤引入鲁棒的经典优化以提高精度和一致性。例如,可在初始相机位姿通过PnP等求得后,插入Bundle Adjustment全局优化相机和关键点(类似BA-Track思路);又或者在获得初步的动态形变后,利用多视图几何的方法对形变场进行平滑约束(如强制刚性或局部刚性,以减少非物理畸变)。这些优化算法虽然迭代执行但规模相对小(参数远少于整个神经网络),在CPU/GPU上少量计算即可收敛,适合有限算力场景。
- 轻量网络细化:将预训练先验+经典优化得到的结果,作为输入喂给一个小型神经网络做端到端细化。例如,可以训练一个小的U-Net或Transformer,将粗糙深度+纹理预估refine成高质量的输出,或者训练一个条件NeRF,以初始的高斯点云为起点,通过少量迭代优化逼近真实影像。这部分网络的参数和训练需求相对较小,因为模型不需要从零学习结构,而是在先验基础上修正。有了上述先验约束,即使网络规模小,依然可以取得显著提升。
可行性与亮点:这种多模块融合策略的魅力在于“各取所长”。基础模型提供了开箱即用的强大感知能力(但单帧的,不一定时序一致);传统BA提供全局一致的优化能力(但需要良好初值);而小型网络提供灵活的非线性表示能力(但可在有先验时收敛更快)。三者结合可以在有限算力下达到接近大型端到端模型的效果。例如,MoSca已经证明只用基础模型先验+Gaussian Splatting就能达到SOTA性能;BA-Track证明经典BA在动态场景中并非不可用,只要配合学习前段。由此延伸,我们的方案会是一个实用系统:不需要训练庞大模型,更多以来拼接已有组建,通过巧妙设计让它们互相配合。学术贡献在于:以前的工作往往各自为政,我们则探索两者的协同增益,使动态重建又“快”又“好”。如能验证这一理念,将对业界具有参考价值。
4. 总结与展望
综上所述,4D动态场景重建目前正处于快速发展阶段:从表示层面的创新(如MoSca、FreeTimeGS提出的高斯融合动态表示),到算法流程的革新(如SpatialTrackerV2、St4RTrack端到端联合跟踪重建,以及BA-Track的经典与学习融合)。这些最新工作为我们提供了丰富的灵感和工具。建议重点围绕“如何利用现有信息更高效地完成4D重建”这个主题展开。无论是引入3D点跟踪作为辅助,还是分解场景降低复杂度,抑或融合多先验构建高效管线,都契合这一主题,并有充分的相关工作基础可供参考。关键在于找到具体的切入点并证明相应的效果提升。
5. 参考文献
- Jiahui Lei et al., “MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds,” CVPR 2025.
- Yifan Wang et al., “FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction,” CVPR 2025.
- Yuxi Xiao et al., “SpatialTrackerV2: 3D Point Tracking Made Easy,” ICCV 2025.
- Haiwen Feng et al., “St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World,” ICCV 2025.
- Weirong Chen et al., “Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction (BA-Track),” ICCV 2025.