This paper proposes a Generic-Attribute-Pose Network (GAPNet) that attends spatial regions to discriminate for fine-grained visual categorization. Compared to a prototypical image classification task with reasonably large variation between classes, fine-grained visual categorization is a task that involves small inter-class variation and large intra-class variation. The GAPNet attends salient regions that can discriminate between classes, but is common within a class. The GAPNet is composed of four streams: the Generic-, Pose-, Part-, and Attribute-stream. The Generic-stream is the main-stream that attends the backbone features with respect to the pose and part-attributes by an attention module referred to as Multi-Attribute Attention Module (MAAM). The Pose-stream extracts pose-specific feature from the backbone feature, while the Part-Attribute streams output features specific pertaining to parts classified in the Pose-stream. The MAAM takes pose, part, and attribute features as query and backbone feature as key-value, and performs cross-inner dot-product between the channels of them followed by max-pooling, to attend the channels of key-value according to best matched query channel. To evaluate the performance of GAPNet, quantitative evaluation and ablation studies on Caltech-UCSD Birds (CUB-Birds) and NABirds are conducted. The functionality of the MAAM module is also verified. Moreover, the effects of each stream in GAPNet are evaluated quantitatively and qualitatively. The influence of stream-order applied to the backbone feature is analyzed. The experiments for GAPNet based on weakly-supervised methods without part annotations are implemented.
본 논문은 세부 카테고리 분류를 위해 공간 영역에 집중하는 일반-특성-포즈 네트워크(GAPNet)를 제안한다. 일반적인 분류와는 달리, 세부 카테고리 분류는 작은 클래스 간 변동과 큰 클래스 내 변동을 포함한다. GAPNet은 클래스 간 구별되지만 동일 클래스 내에서 공유되는 핵심적인 영역에 집중한다. GAPNet은 일반, 포즈, 부분, 속성의 4가지 흐름으로 구성된다. 일반 흐름은 백본 특징에 포즈와 부분-속성에 대해 집중하도록 하는 주요 흐름이다. 포즈 흐름은 백본 특징으로부터 포즈 특정의 특징을 추출해내며, 부분-속성 흐름은 객체의 각 부분에 집중하는 특징을 만들어낸다. 다중 특성 어텐션 모듈(MAAM)은 백본 특징이 포즈, 부분, 속성 정보를 포함하도록 집중시킨다. Caltech-UCSD Birds(CUB-Birds)와 NABirds 데이터셋에 대한 정량적 및 정성적 평가와 추가 분석이 수행되었다. MAAM 모듈의 기능도 확인되었다. 추가적으로, GAPNet 각 흐름의 효과가 정량적 및 정성적으로 평가되었다. 백본 특징에 적용되는 흐름 순서에 대한 영향이 분석되었다. 부분 라벨 없이 약지도방법 기반의 GAPNet 실험이 수행되었다.