Event cameras asynchronously output the polarity values of pixel-level log intensity alterations. They are robust against motion blur and can be adopted in challenging light conditions. Owing to these advantages, event cameras have been employed in various vision tasks such as depth estimation, visual odometry, and object detection. In particular, event cameras are effective in stereo depth estimation to find correspondence points between two cameras under challenging illumination conditions and/or fast motion. However, because event cameras provide spatially sparse event stream data, it is difficult to obtain a dense disparity map. Although it is possible to estimate disparity from event data at the edge of a structure where intensity changes are likely to occur, estimating the disparity in a region where event occurs rarely is challenging. In this study, we propose a deep network that combines the features of an image with the features of an event to generate a dense disparity map. The proposed network uses images to obtain spatially dense features that are lacking in events. In addition, we propose a spatial multi-scale correlation between two fused feature maps for an accurate disparity map. To validate our method, we conducted experiments using synthetic and real-world datasets.
이벤트 카메라는 각 픽셀마다 로그 값의 변경에 따라 바이너리 값을 비동기적으로 출력한다. 이벤트 데이터는 모션 블러에 강하며 까다로운 조명 조건에서도 작동이 가능하다. 이러한 장점으로 인해 이벤트 카메라는 깊이 추정, 시각적 주행 거리 측정 및 물체 감지와 같은 다양한 비전 작업에 사용되어왔다. 특히, 이벤트 카메라는 어려운 조명 조건 및/또는 빠른 움직임에서 두 카메라 간의 대응점을 찾는 스테레오 깊이 추정에 효과적이다. 그러나 이벤트 카메라는 공간적으로 희소한 이벤트 스트림 데이터를 제공하기 때문에 조밀한 시차 지도을 얻 기가 어렵다. 빛의 세기 변화가 일어날 가능성이 높은 구조물의 가장자리에서 이벤트 데이터로부터 시차를 추정하는 것은 가능하지만, 이벤트가 거의 발생하지 않는 영역에서 시차를 추정하는 것은 어려운 일이다. 본 연구에서는 이미지의 특징과 이벤트의 특징을 결합하여 조밀한 시차 지도을 생성하는 심층 네트워크를 제안 한다. 제안된 네트워크는 이미지를 사용하여 이벤트가 부족한 공간적으로 조밀한 특징을 얻는다. 또한 정확한 시차 지도을 위해 두 개의 융합된 특징 지도 간의 공간적 다중 스케일 상관 관계를 제안한다. 방법을 검증하기 위해 본 연구에서는 가상 및 실제 데이터 세트를 사용하여 실험을 수행했다.