This dissertation proposes a novel method for the joint inference of road layouts and the semantic segmentation of urban scenes using spatial and temporal contexts. An urban city is a space where the moving objects obey traffic rules, and all the objects are arranging on the space based on their function and purpose. It means that the movement of dynamic objects and the locational preferences in the urban space lie within a predictable range. The proposed method aims to improve the semantic segmentation performance of urban scenes by modeling these spatial and temporal contexts. First, a special road coordinate system is defined to model spatio-temporal relations that can be obtained by inferring the parameterized road layout of urban scenes. The proposed relation models are applied to the pixels in which the depth information is valid. We designed two spatial contexts as location priors and label co-occurrences, and the temporal context as object temporal priors from the estimated scene flow. All the contexts are defined on the additional potential functions of the conditional random field model. The proposed method is validated with the various publicly available urban datasets including images and the corresponding depth measurements.
본 논문에서는 시공간적 상황 정보를 이용한 도심 영상의 의미론적 분할 및 도로 레이아웃의 새로운 결합 추론 방법을 제시한다. 도심은 모든 이동하는 객체에 대해 교통에 대한 법이 지켜지는 특수한 공간이며, 도심 내 개체들은 각각의 기능이 효율적으로 작동하기 위한 방향으로 공간상에 배치돼 있다. 이는 곧 도심의 동적인 개체들의 기동이 예측 가능한 범위 내에 있음을 뜻하며, 도심의 개체 간 위치관계 또한 예측 가능함을 의미한다. 제안된 방법은 이러한 시공간적 관계 정보를 모델링함으로써 도심 영상의 의미론적 분할 성능을 향상시키는 것을 목표로 한다. 먼저 시공간적 관계 모델링을 위해 특수한 좌표계인 도로법선좌표계를 정의하고 이는 매개변수화한 도로 레이아웃의 추정 결과로 얻을 수 있으며, 영상 내 깊이 정보가 유효한 픽셀을 도로법선좌표계로 투영함으로써 제안된 시간적 및 공간적 의미 정보를 적용하도록 한다. 공간적 의미 정보로는 사전위치 및 클래스 간 동시발생에 대해 모델링하였고, 시간적 의미 정보로는 추정된 공간상의 옵티컬 플로우를 활용하여 물체의 이동성을 모델링하였다. 모델링한 의미 정보들은 조건부 무작위장의 추가 포텐셜 함수들로 정의될 수 있고 최종적으로 의미론적 분할 성능을 향상시킨다. 제안된 방법은 다양한 종류의 공공 활용이 가능한 도심의 영상 및 점구름 데이터를 통해 검증되었다.