All neural networks require a non-linear activation function to have effective expressive power. Then, the performance of the neural network is greatly affected by the selection of the activation function. Many researchers have attempted to find the most suitable activation function for neural networks. In this paper, we study the activation function that the convolutional neural network truly desires to have. We mainly design a novel function generator with well-known activation functions and several simple operators, and suggest the automated search method with heuristic evolutionary algorithm. Our search method found $LeakySwish$, a new activation function better than well-generalized baseline ReLU, and LeakySwish outperforms the existing activation functions under
CIFAR datasets, CNN architectures, batch sizes, and data augmentation techniques. In addition, we propose two methods for parameterizing the activation function, and the shape of the learned activation function during the training process was analyzed and compared with LeakySwish. We identified the characteristics of the activation function that CNNs require, which LeakySwish also has. Through LeakySwish and the shape of the learned activation function, we expect that it will be able to propose a new activation function with a simple structure that is most suitable for CNNs.
모든 신경망은 효과적인 표현력을 갖기 위해 비선형 활성화 함수를 필요로 한다. 그래서, 활성화 함수의 선택에 따라 신경망의 성능이 매우 크게 영향을 받는다. 많은 연구자들은 신경망에 가장 적합한 활성화 함수를 찾기 위해 노력해왔다. 이 논문에서는 합성곱 신경망이 가져야 하는 활성화 함수에 대해 연구한다. 기존에 잘 알려진 활성화 함수를 기반으로 몇 가지 간단한 연산자를 통해 새로운 활성화 함수를 생성하는 함수 생성기를 설계하고, 휴리스틱 진화 알고리즘을 적용한 자동 탐색 기법을 제안한다. 우리의 탐색 기법은 ReLU보다 우수한 활성화 함수인 LeakySwish를 찾았고, LeakySwish는 CIFAR 데이터셋에 대해 다양한 합성곱 신경망, 배치 사이즈 및 데이터 증강 기법 하에서 기존 활성화 함수들의 성능을 능가한다. 또한, 활성화 함수를 매개 변수화하는 두 가지 방법론을 제안해 학습 과정에서 학습된 활성화 함수의 모양을 LeakySwish와 비교 분석한다. 이를 통해, 실제로 합성곱 신경망이 갖고자 하는 활성화 함수는 기존 활성화 함수들보다 LeakySwish가 가장 비슷하다는 것을 보였다. 우리는 LeakySwish와 학습된 활성화 함수의 모양을 토대로 합성곱 신경망에 가장 적합한 간단한 구조의 새로운 활성화 함수를 찾을 수 있을 것이라고 기대한다.