This paper deals with a neural network that mimics biological structure of bat so that 3-dimensional (3D) environments can be perceived through fusion of auditory and visual information, named as Bat-FNet. The autonomous vehicles typically use visual sensors such as RADAR, LIDAR, and RGB cameras, and sound sensor like ultrasonic. Visual sensors are vulnerable to adverse weather, where sight is not secured. Ultrasonic sensors are used only for measuring distance even though they are robust [54]. The Bat-FNet, inspired by bats that use eyes and ears harmoniously to survive in complex environments, recognizes location and size of the target object. We prove the superiority of fusion network via mean square error (MSE) and intersection over union (IoU) scores. We demonstrate robustness against image distortion by complementing each other between ultrasound and camera sensors.
이 논문은 박쥐의 생물학적 구조를 모방하여 시청각 정보의 융합을 통해 3차원 정보를 인지해내는 Bat-FNet 이라 명명한 신경망을 다루고 있다. 일반적으로 자율 주행 차량은 레이더, 라이다, 카메라와 같은 시각 센서와 초음파와 같은 음향센서를 사용한다. 시야가 확보되지 않는 악천후의 상황에서는 시각 센서가 취약하다. 초음파 센서는 견고하지만 오직 거리측정에만 이용되고 있다. 눈과 귀를 조화롭게 사용하면서 복잡한 환경에서 살아남은 박쥐를 모방한 Bat-FNet은 물체의 위치와 크기를 인지합니다. 우리는 평균 제곱 오차와 IoU 점수를 통해 융합 네트워크의 우월함을 입증합니다. 우리는 초음파와 카메라 센서 사이의 상호 보완을 통해 이미지의 왜곡으로부터 견고하게 동작하는 것을 증명합니다.