Omnidirectional cameras are extensively used in various applications to provide a wide field of vision. However, they face a challenge in synthesizing novel views due to the inevitable presence of dynamic objects, including the photographer, in their wide field of view. In this paper, we introduce a new approach called Omnidirectional Local Radiance Fields (OmniLocalRF) that can render static-only scene views, removing and inpainting dynamic objects simultaneously. Our approach combines the principles of local radiance fields with the bidirectional optimization of omnidirectional rays. Our input is an omnidirectional video, and we evaluate the mutual observations of the entire angle between the previous and current frames. To reduce ghosting artifacts of dynamic objects and inpaint occlusions, we devise a multi-resolution motion mask prediction module. Unlike existing methods that primarily separate dynamic components through the temporal domain, our method uses multi-resolution neural feature planes for precise segmentation, which is more suitable for long 360◦ videos. Our experiments validate that OmniLocalRF outperforms existing methods in both qualitative and quantitative metrics, especially in scenarios with complex real-world scenes. In particular, our approach eliminates the need for manual interaction, such as drawing motion masks by hand and additional pose estimation, making it a highly effective and efficient solution.
전방향 카메라는 다양한 응용 분야에서 널리 사용되고 있으나 넓은 시야각으로 인해 사진촬영자와 같은 이동체들이 불가피하게 촬영되곤 한다. 이러한 이동체가 촬영된 360도 영상을 사용하여 새로운 시점의 영상 합성을 할 경우, 이동체의 기하학적 비일관성으로 인해 잔상 효과가 발생하며 합성 영상의 퀄리티를 떨어트린다. 본 논문에서는 로컬 광도 필드 (LocalRF)에 양방향 정제와 이동체 마스크 예측 모듈을 결합하여 이동체가 포착된 긴 360 영상을 활용한 새로운 시점 영상 합성 방법인 OmniLocalRF를 제안한다. OmniLocalRF는 이동체 마스크 예측을 통해 학습 중, 미리 학습된 모델없이 영상내 이동체를 배제하며 현재 로컬 광도 필드로부터 멀리 떨어진 프레임을 활용한 추가 학습을 통해 안정적이고 실사적인 영상 합성에 성공하였다.