Learning the Depths of Moving People by Watching Frozen

阅读原文时间：2023年07月15日阅读：1

对静止的物体, 在不同的 viewpoints 同一时刻进行拍摄, 根据拍摄到的结果, 使用三角测量算法计算出平面 2D 图像在 3D 图像中的坐标
Ground Truth
- 使用 MVS 得到的深度图
- 使用 MVS 直接得到的深度图有一些也是不符合实验的要求的, 需要对其进行 filtering
神经网络的输入
- 待计算深度的 RGB 图像(target image)
- 使用 Mask-RCNN 得到的行人分割图
- 在原始的 video 中得到的 reference image 与 target image 计算出光流图(表示在成像平面上物体的运行), 用于解决在 training 时输入的仅仅是人物禁止但是摄像机在动的图片序列, 而在 testing 的时候输入的人和摄像机都在运动的图片序列, 为了在 training 的时候弥补这种情况, 需要通过光流图计算出初始环境深度图(借助光流图和分割图得到)
  - 此外光流图还包含了物体的 montion 和形状的信息
目的
- 得到深度图, where both the camera and people in the scene are naturally moving
该算法使用到的其他算法
- MVS: 对运动的物体无效, 运动的物体被视为噪声, 用于估计深度图像, 作为 GT
- Sfm: 对运动的物体无效, 运动的物体被视为噪声, 用于估计相机的位置

在获取了每个 frame 的相机位姿之后, 使用 COLMAP(一种 MVS 算法) 恢复每个 frame 的深度图
因为数据是从网络上获取的, 包含了一些噪声(motion blur, shadows, reflections, MVS 算法本身的要求(不能有动的物体, 背景不能是后期电脑合成的)等), 需要对 COLMAP 算法获取的深度图进行过滤
定义 depth value 过滤器1, 不符合的像素对应的 depth = 0
1. \(D_{MVS}\) 表示使用 COLMAP 算法得到的深度图
2. \(D_{pp}\) 表示两个 frame 的 motion paralax(该论文首次提出), 通过 FlowNet2.0 计算出整张图的 \(D_{pp}\)
3. 使用公式计算每个 frame 的 normalized error \(\Delta{(p)}\) , 其中 \(p\) 为像素
\[
\Delta(p)={{|D_{MVS}(p)-D_{pp}(p)|}\over{D_{MVS}(p)+D_{pp}(p)}}
\]
一张 MVS 的深度图经过第 3 点的过滤器之后, 如果保留的非 0 的个数占总共的比例小于 20% 则不要这个 frame 和对应的深度图
定义过滤器2
保证视频的帧数至少 30, 宽高比为 16：9, 宽至少为 1600px
对剩下的 frame 和深度图, 采用人工的方法去掉明显错误的 frame

\(I^{r}\) reference image
\(M\) 人的分割图
\(D_{pp}\) non-human regions 的 depth map which estimated from motion parallax w.r.t another view of the scene
\(C\) confidence map
optional: human keypoint map \(K\)

a full depth map for the entire scene

在输入时, \(C\) 和 \(D_{pp}\) 都没有人的区域, 但是因为 GT 有人的深度信息, 为了匹配上 GT 的 depth 的值, 网络学习人的信息, 优化没有人的区域(\(D_{pp}\))

手机扫一扫

移动阅读更方便

你可能感兴趣的文章