Salient regions are known to be important for the human visual system. In computer vision, the associated saliency detection task has received an increasing interest in the recent years. Despite the substantial progresses made following the introduction of deep learning approaches, many challenging issues remain. Indeed these methods often process local regions within images separately and as a result have difficulties capturing global patterns. In addition saliency maps are often blurry around the boundary of the salient object. To address these issues, we propose a convolutional autoencoder which first extracts the information contained in input images using a convolutional network (encoder) before generating output saliency maps using a deconvolution network (decoder). Our network operates on whole image directly so that global patterns are captured with ease. To reduce blurriness in the output we add direct connections between the encoder and the decoder. Finally the inclusion of a novel contrast penalty term helps further improve the sharpness of the output, especially around the edges of salient objects. We compare our method with six other state-of-the-art algorithms on three widely used benchmarks, where it shows equivalent performance. We also conduct four experiments to better understand how encoding and decoding are done.
인간의 시각 체계에서 관심 영역(salient region)은 중요한 역할을 하는 것으로 알려져 있다. 이와 관련되어, 컴퓨터 비전 분야에는 관심 영역 검출(saliency detection)이 최근 몇 년간 관심을 받고 있다. 근래에 딥러닝 기반 기술들이 이 분야에서 상당한 진보를 이루었지만, 아직 풀어야 할 문제들이 남아 있다. 이 기술들은 이미지를 국소적인 영역들로 나누어 처리하기 때문에, 이미지의 전반적인 패턴을 고려하지 못한다. 또한 결과로서 출력되는 saliency map에서 관심 영역의 모서리 주변으로 흐릿한 결과를 보이기도 한다. 이러한 문제를 해결하기 위해서 우리는 컨벌루저널 오토인코더를 이용한 방법을 제안한다. 제안된 오토인코더는 컨벌루저널 신경망(인코더)을 이용하여 입력 이미지에서 특징 정보를 추출하고, 이를 디컨벌루저널 신경망(디코더)에 통과시켜 출력 saliency map을 생성한다. 이 방식은 오토인코더의 구조상, 이미지 전체의 패턴을 전반적으로 고려한다. 또한 출력물의 흐릿한 결과를 선명하게 하기 위해서, 인코더와 디코더 사이에 직접 연결선(direct connection)을 추가하고 새롭게 제안된 에지 대비 패널티를 학습 과정에 도입하였다. 제안된 방식의 평가를 위해 3개의 벤치마크를 통해 6개의 세계 최고 기술과 비교했고, 이를 통해 타 기술과 동등한 성능을 볼 수 있었다. 추가적으로, 인코더와 디코더의 처리 과정을 이해하기 위해서 4가지의 추가 실험을 수행하였다.