With the recent advancements in deep learning, image recognition approaches nowadays surpass human performance. However, most of the state-of-the-art approaches require large datasets which is notorious for acquiring. Learning a model with few samples or generalizable representation that generalizes to unseen data is required when a large dataset for the task is not available. Solving a task with limited data is still an open problem. In contrast, humans can quickly learn a new concept with a few examples or experiences. This is available due to two aspects of intelligence. One is general knowledge accumulated from a large amount of experience and information. The other is a fast adaptation ability that exploits general knowledge to learn new concepts.
Inspired by human's learning ability, learning approaches that generalize to tasks with limited data are receiving attention. In image classification, classifying an object with few samples is called few-shot learning. During the training phase, a model learns general knowledge from the training set. In the test phase, the trained model performs a task, i.e., classifying unseen classes with a few samples given per class. There are two directions of research related to few-shot learning. One is learning a general representation space, which is also discriminative to unseen classes; thereby, instant adaptation is available. Another approach is called meta-learning or learning-to-learn, a method to learn how to update a model with few samples. Meta-learning methods train a model with few samples, which is affected by the initial model capability. In this sense, learning a model with general representation is a fundamental problem in few-shot learning.
In this dissertation, we propose approaches to learn general representation space. We postulate one hypothesis that objects of each class share a canonical concept; a representative characteristic of the class, and the canonical concept is one of the key factors to recognize objects under various perturbations, e.g., geometric, illumination, photometric, and intra-class variations, as well as adaptation to unseen classes. If a canonical concept can be obtained by neutralizing various perturbations from images, we can apply the learned canonical concept to recognize unseen classes only with a few samples. Based on the assumption of canonical concept, we propose approaches that neutralize various perturbations to extract a canonical concept by learning generalizable representation space.
To this end, graphic symbols are used to validate the proposed approaches where a canonical concept is clearly defined as prototypes. In the experiments, prototypes are utilized as a canonical concept. The contributions of this dissertation are as follows:
(1) A metric-learning based method is proposed to learn the relation between prototypes (canonical concept) and real images. By utilizing prototypes in training, a better representation can be learned, resulting in higher performance on one-shot and few-shot classification.
(2) A generative model-based learning method is proposed to learn the neutralizing process by visual composition. In the experiments, we demonstrate the representation learned by generative loss is more generalizable than representations learned by metric-learning based approaches.
(3) A class-agnostic relative transformation estimation method is proposed to neutralize geometric perturbations. The relative transformer networks can inference geometric transformations of arbitrary objects, thereby, applicable to few-shot tasks. We validate our approach on the one-shot classification task under high geometric variations.
최근 딥러닝 기법의 발전으로 오늘날 이미지 인식 방식은 인간의 성능을 능가하고 있다. 그러나 대부분의 접근 방식은 수집하기 어려운 큰 규모의 데이터셋을 요구한다. 작업을 수행하기 위해 큰 규모의 데이터셋을 모으기 어려운 경우 소량의 데이터만을 활용하여 모델을 학습하거나 이전에 접하지 못했던 작업에도 적용할 수 있는 일반화 가능한 표현 공간을 학습해야 한다. 데이터가 제한된 상황에서 작업을 수행하는 문제는 아직까지 미해결 과제로 남아있다. 하지만 기계와 다르게 인간은 소량의 예제나 경험으로 새로운 개념을 빠르게 배울 수 있다. 이것은 지능의 두 가지 측면으로 인해 가능하다. 하나는 많은 경험과 정보로부터 축적된 일반화된 지식이고, 다른 하나는 축적된 일반화 지식을 활용하여 새로운 개념을 배우는 빠른 적응 능력이다.
사람의 학습 능력과 유사하게 데이터가 제한된 상황에서도 작업을 수행할 수 있는 학습방법이 주목을 받고 있다. 영상 분류에서는 소량의 예시로 새로운 물체를 인식하는 문제를 퓨-샷 학습이라고 부른다. 학습 과정에서는 학습 데이터셋에서 일반화된 지식을 학습한다. 테스트 과정에서 학습된 모델은 새로운 클래스에 대한 분류 문제를 소량의 예제만을 활용하여 풀게 된다. 퓨-샷 학습은 크게 두가지 접근법으로 분류된다. 첫번째는 일반화 가능한 표현공간을 학습하여 새로운 물체에 대해서도 구분성이 뛰어난 특징을 뽑는 방법이다. 또 하나는 메타 학습이라고 부르며, 소량의 예제를 활용해 분류모델을 학습하는 방법이다. 메타 학습은 분류 모델을 소량의 예제를 활용하여 개선하는 과정으로 초기 표현공간에 영향을 받기 때문에 일반화 능력이 높은 표현공간 학습은 중요한 문제이다.
본 학위 논문에서는 새로운 객체 인식에도 용이한 일반화 능력이 높은 표현공간을 학습하는 방법론을 제시한다. 물체를 분류하는 클래스는 각각의 대표적인 개념을 가지고 있고, 이 대표 개념을 활용하여 다양한 조도, 크기 변화, 그리고 동일 클래스 객체 간의 다양성에도 물체를 인식하고 새로운 물체에도 빨리 적응할 수 있다는 가설을 세웠다. 이와 유사하게, 여러 환경에서 촬영된 객체에서 다양한 변화 요인들을 제거하고 대표 개념을 추출하는 과정이 학습 가능하다면 이를 활용하여 소량의 예제로도 새로운 물체를 인식할 수 있을 것이다. 본 학위논문에서는 일반화 가능한 표현 공간을 학습함으로써 촬영된 객체에서 변화 요인들을 제거하고 대표 개념을 추출하는 방법론을 제안한다. 제안한 방법론을 검증하기 위해 대표 개념이 프로토타입으로 명확히 정의되어 있는 여러 그래픽 심볼 데이터셋을 활용하였다. 본 연구에서는 그래픽 심볼의 원본 디자인인 프로토타입이 대표 개념으로 활용되었다. 본 학위 논문이 기여한 부분들은 다음과 같다.
(1) 프로토타입과 실제 영상 간의 관계를 메트릭 학습 기법으로 학습하는 방법을 제시한다. 대표 개념(프로토타입)을 학습에 활용함으로써 원-샷, 퓨-샷 작업에서 높은 성능을 보이는 표현공간이 학습됨을 보인다.
(2) 생성 모델을 기반으로 변화 요인들을 중화하는 학습방법을 제안한다. 생성모델을 기반으로 학습된 표현공간이 메트릭 학습기법을 기반으로 학습된 표현공간보다 일반화 성능이 높음을 실험을 통해 보인다.
(3) 클래스에 종속되지 않고 객체 간의 기하학적 변화 관계를 추정하여 기하학적 변화요인을 제거하는 방법을 제안한다. 제안한 방법은 임의의 물체에 대한 기하학적 변화를 추론하며 이러한 특성으로 인해 퓨-샷 환경에 적용 가능하다. 기하학적 변화 요인이 있는 원-샷 환경에서 제안한 방법이 유효함을 보인다.