Training a Convolutional Neural Network (CNN) to be robust against rotation has mostly been done with data augmentation. In this thesis, another progressive vision of research direction is highlighted to encourage less dependence on data augmentation by achieving structural rotational invariance of a network. The deep SO(2) equivariant and invariant network is proposed, which consists of two main parts, to echo such vision. First, Self-Weighted Nearest Neighbors Graph Convolutional Network (SWN-GCN) is proposed to implement Graph Convolutional Network (GCN) on the graph representation of an image to acquire rotationally equivariant representation, as GCN is more suitable for constructing deeper network than spectral graph convolution-based approaches. Then, invariant representation is eventually obtained with Global Average Pooling (GAP), a permutation-invariant operation suitable for aggregating high-dimensional representations, over the equivariant set of vertices retrieved from SWN-GCN. Our method achieves the state-of-the-art image classification performance on rotated MNIST and CIFAR-10 images, where the models are trained with a non-augmented dataset only. Then, quantitative and qualitative validations over invariance and equivariance of the representations are reported, respectively. Part of this work was presented at British Machine Vision Conference (BMVC) in 2021.
일반적으로, 컨볼루션 합성곱 신경망 (Convolutional Neural Network) 이 이미지의 회전에 등변 및 불변 하도록 학습시키기 위해 데이터 증강법 (Data Augmentation)이 사용된다. 하지만 본 연구에서는, 신경망의 구조적 회전 등변 및 불변성을 달성함으로써 데이터 증강법에 대한 의존도를 낮춤과 동시에 이를 위한 진보적 연구 방향을 제시한다. 본 연구에서는 구조적인 회전 등변 및 불변성을 가진 신경망 네트워크를 제안하며, 이는 크게 두 부분으로 구성되어 있다. 첫번째로, 회전 등변한 심층 표상을 학습하기 위해 자가중 최근접 이웃 그래프 합성곱 신경망 (Self-Weighted Nearest Neighbors Graph Convolutional Network) 을 제안하며, 이는 그래프로 표현된 이미지에 그래프 합성곱 신경망을 적용하는 방식을 기반으로 한다. 또한, 기존의 스펙트럼 그래프 기반 신경망 대비 그래프 합성곱 신경망의 심층 학습에 유리한 근거 또한 다룬다. 두번째로, 전역 평균화 풀링 (Global Average Pooling)의 순열 불변성을 이용해, 그래프 합성곱 신경망으로부터 얻은 회전 등변 표상을 회전 불변 표상으로 최종 취득하며, 전역 평균화 풀링이 심층 불변의 표상에 유리한 근거 또한 다룬다. MNIST 와 CIFAR-10 데이터셋에 대한 회전 불변 분류 실험을 진행하며, 실험은 네트워크들을 회전에 대한 데이터 증강 없이 학습을 진행한 후, 회전에 대한 데이터 증강을 포함한 성능 평가용 데이터 셋으로 분류 성능을 도출한다. 그 결과, 본 연구에서 제시한 네트워크는 기존 방법론들에 비에 월등한 성능을 도출한다. 또한, 본 연구에서는 제시한 네트워크 표상의 회전 등변과 회전 불변에 대한 정성적, 정량적 평가 또한 진행한다. 본 연구의 일부는 2021년 영국 기계 시각 지능 학회 (BMVC) 에서 발표되었다.