In this work, we propose an unsupervised method to generate synthetic depth images with the noise
characteristics of commercial depth cameras in table-top bin-picking scenarios. Due to the degradation
and measurement uncertainties of depth cameras, depth images captured in the real world are vastly
different from synthetically generated depth images. To model noise in Amplitude-Modulated Continous-
Wave (AMCW) time-of-flight cameras, we integrate the time-of-flight depth measurement procedure of
such cameras into a redefined Cycle-consistent Generative Adversarial Network (CycleGAN) framework
to generate noise for synthetic depth images using a rendering approach. We show perceptually real-
istic depth images generated based on the T-LESS dataset on cluttered table-top bin-picking scenarios
collected from a time-of-flight camera (Kinect V2). Moreover, we compare perceptual similarity of our
results with raw sensor measurements using structural similarity metrics and Fréchet distance in autoen-
coder latent space.
본 논문에서는 자율 작업 로봇의 물체 인식에 활용 될 수 있는 삼차원 영상 카메라의 노이즈 특성을 반영한
합성 이미지 생성 기법을 비지도 학습 알고리즘에 기반하여 제시한다. 기존 삼차원 영상 카메라의 측정
불확실성 및 노이즈 문제로 인해 실제 카메라로 측정한 이미지와 합성 삼차원 이미지 사이의 차이가 발생
한다. 이러한 측정 노이즈 모델을 합성 삼차원 이미지에 반영하기 위하여, 본 논문에서는 연속파형 변복조
기반 삼차원 영상 카메라의 측정 노이즈 모델을 싸이클-생성적 적대 신경망 프레임 워크를 활용하여 합성
영상 이미지에 반영하였다. 제시된 측정 노이즈 생성 모델은 키넥트 V2 센서를 활용하여 측정된 T-LESS
데이터 셋을 활용하여 성능 검증이 이루어졌다. 또한, 실제 삼차원 영상 센서를 활용하여 측정한 이미지와 본
논문이 제시한 기법을 기반으로 생성된 합성 이미지 사이의 유사도를 구조적 유사 메트릭과 프레셰 거리의
두 지표를 활용하여 분석하였다.