[ICCV'25] St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World 阅读报告
本文提出了一个 feed-forward 框架,通过引入一种创新的、依赖于时间的 pointmap 表示,并利用一个双分支 Transformer 架构,实现了在统一的世界坐标系中同时进行动态场景的密集追踪与三维重建。
本文提出了一个 feed-forward 框架,通过引入一种创新的、依赖于时间的 pointmap 表示,并利用一个双分支 Transformer 架构,实现了在统一的世界坐标系中同时进行动态场景的密集追踪与三维重建。
本文巧妙地提出了一种“运动解耦”机制,通过一个学习的 3D Tracker 将动态物体的自身运动从观测运动中剥离,使得经典的 Bundle Adjustment 能够首次被统一地应用于含动态物体的场景中,极大地提升了动态场景重建中的相机位姿精度和三维重建质量。
本文提出了一个 feed-forward 3D point tracking architecture,它将 video depth、camera pose 和 object motion 进行统一建模和 end-to-end 优化,并通过在 17 个异构数据集上的可扩展训练,实现了 SOTA 的 3D 追踪精度和推理速度。
这篇教程为在macOS系统上基于NvChad配置Neovim简单C++开发环境的记录。
这篇教程为无ROOT权限的Ubuntu服务器用户提供了完整的CUDA Toolkit与cuDNN安装指南。采用静默安装模式将CUDA Toolkit部署到用户目录,通过交互式界面调整安装路径并仅保留必要组件。特别指出PyTorch内置版本与本地安装版本的区别,避免开发者误判环境状态。
Learn variational autoencoder (VAE) by reading and analyzing the paper: “Auto-Encoding Variational Bayes”. This post will introduce the basic work of VAE, including the derivation of formulas and simple code verification.
This paper introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. And it is important to learn Score-Based generative network and Ito diffusion SDE.
Image super-resolution with conditional diffusion model.
Image deblurring with “predict-and-refine” conditional diffusion model. An brand new strategy for ill-posed problem.
Learn diffusion probabilistic models (DPM) by reading and analyzing the papers: “Deep Unsupervised Learning using Nonequilibrium Thermodynamics” and “Denoising Diffusion Probabilistic Models”. This post will introduce the basic work of DPM, including the derivation of formulas and simple code verification.