The intelligent mobile robot is expected to provide convenience and improve the quality of human life
by performing specific tasks with users based on information obtained by recognizing the surrounding
environment. To this end, intelligent mobile robots first need the ability to recognize the surroundings
and autonomously drive to the desired destination. To safely drive to the desired destination without
collisions, the following functionalities are required. A mobile robot must 1) be able to recognize the
type of objects placed around it, 2) predict the distance to the object, and 3) recognize unexpected
obstacles that are not used during training. In addition, 4) it should be able to perform the preceding
requirements in real-time based on the fast operation speed. To solve these problems, in this paper,
we propose a network that simultaneously perform multiple tasks such as semantic segmentation, stereo
disparity estimation, and obstacle detection at high computational speed.
In particular, when operating a mobile robot in an outdoor environment, it is desirable to detect
unexpected road hazards reliably in real-time, especially under varying adverse conditions (e.g., changing
weather and time of day). However, existing road driving dataset provide large-scale images acquired in
either normal or adverse scenarios only, and often do not contain the road obstacles captured in the same
visual domain as for the other classes. To address this, we introduce a new dataset called AVOID, the
Adverse Visual Conditions Dataset for real-time obstacle detection collected in a simulated environment.
AVOID consists of a large set of unexpected road obstacles located along each path captured under
various weather and time conditions. Each image is coupled with the corresponding semantic and
depth maps, raw and semantic LiDAR data, and waypoints, thereby supporting most visual perception
tasks. We benchmark the results on high-performing real-time networks for the obstacle detection task,
and also propose and conduct ablation studies using a comprehensive multi-task network for semantic
segmentation, depth and waypoint prediction tasks. Finally, through experiments, our network was
confirmed that exhibit the best performance.
지능형 모바일 로봇은 주변 환경을 인식하여 얻은 정보를 바탕으로 특정 행동을 수행하거나 사용자와
상호작용함으로써 편리함을 제공하고 삶의 질을 높일 수 있을 것으로 기대된다. 이를 위해서 먼저 지능형 모
바일 로봇은 주변 환경에 대한 정보를 인식하고 원하는 목적지까지 도달할 수 있는 능력이 필요하다. 원하는
목적지까지 사고나 충돌 없이 안전하게 주행하기 위해서는 1) 주변 물체의 종류를 파악할 수 있어야 하며,
2) 물체들까지의 거리를 예측할 수 있어야 하고, 3) 예기치 못한 장애물이 등장했을 때에도 이를 인식할 수
있어야 한다. 또한 4) 빠른 연산 속도를 바탕으로 앞선 요구사항들을 실시간으로 수행할 수 있어야 한다.
이러한 문제들을 해결하기 위해 이 논문에서는 의미론적 장면 분할과 스테레오 디스페리티 추정 및 장애물
검출 등의 다중작업을 빠른 연산속도로 동시에 수행할 수 있는 네트워크를 제안한다.
야외 환경에서 모바일 로봇을 운용할 때는, 다양한 악조건 상황(날씨 및 시간)에서 예기치 못한 장애물
들로 인한 위험을 실시간으로 안정적으로 감지해야 한다. 하지만 기존 도로 주행 데이터 셋은 정상날씨에서
획득한 것이 대부분이다. 최근들어 다양한 날씨를 고려하여 제작된 데이터셋들도 많이 등장하였지만, 여전히
도로 위의 장애물까지 고려하지는 않았었다. 따라서 우리는 시뮬레이션된 환경에서 실시간 장애물 감지를
위한 Adverse Visual Conditions Dataset (AVOID) 을 수집하였다. AVOID는 다양한 날씨와 시간 조건에서
도로 위의 경로를 따라 주행 중에 예상치 못한 장애물을 발견할 경우, 이를 회피하여 원하는 목적지까지 주
변 물체와의 충돌없이 도달하는 상황의 데이터 셋으로 구성된다. 해당 데이터셋은 파노라마 이미지와 이에
대응되는 semantic 맵, 깊이 맵, LiDAR, semantic LiDAR, 및 웨이포인트를 제공함으로써 대부분의 시각적
인식 작업을 지원한다. 우리는 의미론적 세분화, 깊이 맵 및 웨이포인트 예측의 다중작업을 수행하여 모바일
에이전트가 시각적으로 불리한 상황에서 사고 없이 원하는 목적지까지 도달할 수 있는 포괄적인 통합 프레임
워크를 설계하였다. 최종적으로 다양한 날씨 변화 상황에서 제안하는 장애물 탐지 작업의 성능을 검증하기
위해 기존의 고성능 실시간 네트워크 결과들과의 비교를 진행하였고, 제안하는 방법이 가장 우수한 성능을
발휘함을 확인하였다.