A built-in environment in a dataset plays an important role to decide the performance of a classifier. Up until recently, many facial expression recognition algorithms have competed their performances on a benchmark dataset. However, here one question arises. Does a classifier best in a single benchmark dataset work really better in the real-world environment? To design a classifier working robustly in the real-world, we present an Environment-diversified Network(EdNet). EdNet is a committee of a diverse dataset-biased members which share the feature extraction layers, and 90 of dataset-biased members were trained on 15 blended datasets. Rather than beating the state-of-the-art accuracy on the benchmark dataset, we focused on reducing the accuracy loss of a classifier under unfamiliar environment which the classifier have not been trained on. Finally, we confirmed that EdNet can achieve outperforming cross-dataset generalization by having diversified dataset-biased members.
데이터 셋 안에 필수적으로 포함되어있는 환경에 대한 편향은 인식기의 성능을 결정하는 중요한 변수이다. 최근까지 많은 얼굴 표정 인식 알고리즘들이 개발되어왔고, 또한 많은 연구들이 학습에 사용된 벤치마크 데이터 셋 내에서 높은 인식률을 달성하는데 성공하였다. 하지만 특정 얼굴표정 데이터 셋 내에서 가장 좋은 성능을 보여주는 인식기가 실제환경에서도 가장 좋은 성능을 보여줄수 있는지는 검증이 필요하다. 본 논문에서는 얼굴 표정 인식 알고리즘이 실 환경에서도 인식률 저하 없이 강인하게 작동하게 하기 위해서 Environment-diversified Network(EdNet)라는 새로운 구조의 딥 네트워크를 제안한다. 제안하는 방법인 EdNet은 다양한 환경에 대한 편향을 가지는 데이터 셋으로 학습된 90개의 서로 다른 네트워크(환경 편향 구성원)를 취합한 커미티 머신이며 모든 환경 편향 구성원은 하나의 특징점 추출 레이어를 동시에 공유하고 있다. 본 논문은 특정 벤치마크 데이터 셋에서 가장 높은 인식률을 달성하는 것 보다 새로운 환경 내에서 인식기의 인식률 저하를 최대한 억제할수 있는 방법을 제시하는데 초첨을 맞추고 있다. 실험을 통해서 제시한 EdNet 구조가 다양한 환경 편향 구성원을 취합함으로써 새로운 환경 내에서도 인식률 저하 없이 우수한 크로스-데이터셋 성능(Cross-dataset performance)을 보여주는 것을 검증하였다.