Convolutional neural network (CNN) is mainly composed of convolution, pooling, and non-linear activation layers. Nowadays, almost all networks use only $2 \times 2$ max pooling or convolution layers with stride of 2 for down-sampling. This technique is known to be good at extracting good feature, but it also has the constraint that feature map size is always reduced dramatically to half. In this work, we propose a simple new sampling technique that we call non-integer strided sampling (NSS), which enables free feature map size change, so that it is not always reduced to half. Using this NSS layer, we design a new type of network architecture, GradualNet, which makes the feature map size change more smoothly than it is in existing networks.Our results showed that NSS can improve the performance of networks without having more parameters. Especially, it shows 1.82% accuracy improvement with CIFAR-100 without data augmentation compared to the baseline ResNet. Moreover, we propose other interesting possibilities for a CNN architecture based on the NSS layer. The results revealed that previous networks have been stuck in a stereotype, and this could be an important discovery in CNN architecture that has the potential to resolve this stereotype.
컨볼루셔널 신경망은 주로 컨볼루션, 풀링, 비선형 활성화 함수 레이어로 이루어져 있다. 최근 대부분의 네트워크는 다운샘플링에 $2 \times 2$ 맥스 풀링이나 간격이 2인 컨볼루션 레이어만을 주로 사용한다. 이러한 다운샘플링 레이어들은 좋은 특징을 추출하고 학습 속도를 빠르게 하는데 좋다고 알려져 있으나, 반면에 특징 맵 크기가 항상 급격하게 절반으로만 줄어든다는 제약을 가지고 있다. 본 연구에서는 특징 맵 크기가 항상 절반으로 줄어드는 일이 없이 우리가 원하는 대로 자유롭게 바꿀 수 있는 간단한 샘플링 알고리즘인 비정수 간격 샘플링 (NSS) 를 제안한다. 이 NSS 레이어를 이용하여 우리는 기존의 네트워크보다 특징 맵 사이즈가 더욱 부드럽게 변화하는 네트워크인 GradualNet을 제시한다.실험을 통하여 우리는 GradNet이 기존의 네트워크보다 많은 파라미터를 가지지 않음에도 NSS를 이용하여 성능을 향상시킬 수 있음을 확인하였다. 특히, CIFAR-100에서는 38층 ResNet의 구조를 토대로 하였을 때 1.82%의 성능 향상이 나타난다. 또한, 우리는 NSS 레이어를 사용하여 기존 CNN 구조에 적용될 수 있는 여러 새로운 가능성을 확인하였다. 이러한 결과들은 기존의 네트워크들이 이미 고정관념에 빠져있었다는 사실과 함께, 이러한 발견이 CNN 구조의 여러 고정관념을 해결할 수 있다는 중요한 가능성을 보여준다.