For the last decade, substantial advances have been made in various computer vision technologies and most of them are based on convolution neural network (CNN) architecture. Typically, CNN is trained by a stochastic gradient descent algorithm such as Back-Propagation (BP) in end-to-end fashion but the training process suffers from slow convergence speed and extensive parameter tuning. In this paper, we propose a new Extreme Learning Machine (ELM) based CNN architecture and training algorithm to alleviate the problems. The proposed training algorithm is biologically plausible, non-iterative, fast and requires minimal human intervention. The proposed architecture is deeper than previous unsupervised feature learning method. We have validated the proposed method in standard character and object recognition benchmark set. Our method shows comparable performance to several deep learning approaches and shows higher accuracy than other unsupervised feature learning in our experiments.
지난 10여년 간 컴퓨터 비전 분야는 그 이전보다 진일보한 성과들을 거두었다. 그리고 그러한 성과들의 상당 부분은 이미지넷(ImageNet)과 같은 대규모 공개 데이터의 출현, 대규모 데이터를 학습할 수 있는 심층 신경망과 같은 복잡한 모델 및 학습 방법의 발견, 마지막으로 이들을 가능하게 하는 GPGPU와 같은 강력한 하드웨어의 발전에서 기인한다. 그러나 이러한 성과들에도 불구하고, 현재의 접근 방법에는 여러가지 잠재적 문제들이 존재한다. 기존 학습 방법은 필요한 시간적 / 자원적 비용이 크며, 좋은 학습 결과를 얻기 위해 많은 노력을 필요로 한다. 구현상 생물학적 관찰에 위배될 뿐만 아니라 그 결과를 해석하거나 인간의 공학적 직관과 설계를 반영하기 어렵다. 이러한 문제들에 대한 해결책으로 본 논문에서는 extreme learning machine을 모듈로 활용하는, 임의성과 비지도 학습에 기반한 convolutional neural network 구조와 그 학습 방법을 제시한다. 이 새로운 구조와 학습 방법은 빠르고 효율적이며 생물학적 관찰 결과와도 일관성을 유지한다. 진행한 실험에서, 제시한 방법은 더 빠른 학습시간으로 다른 심층 신경망과 비슷한 정확도를 보였으며, 다른 비지도 특징 추출 방법들과 비교했을 때는 더 나은 정확도를 보여주었다.