Spatial attention module is widely used in deep neural networks. The monumental attention module,Transformer [11] was proposed as self-attention and encoder-decoder frameworks in machine translationtask, and improving capability of learning long-range dependencies. After that, spatial attention modulessuch as Non-local block [12] and Criss-cross attention block [5] were also proposed and improving per-formance in vision fields including action recognition, segmentation, and object detection. Despite greatsuccess, spatial attention can only be used in a limited way due to expensive computation and memorycosts. To reduce overhead, segmentation or pooling should be used and several methods were proposed,but stacking enough blocks is still limited. Also, multi-head attention is not used in vision and videotasks due to the memory limitation. In this paper, we analyze which factors play an important role inlearning spatial attention module in the view of geometric definition, and propose ‘Transposed attentionmodule’ that is faster and smaller than Non-local block [12] in the same number of blocks and heads. Thebiggest advantage of our module is that memory and speed are maintained when the number of headsis increasing. Also, we introduce new approach to interpret spatial attention module and get superiorperformance compared to Non-local block [12] on CIFAR-10, CIFAR-100 [9], and Tiny-ImageNet.
이 논문에서는 보다 효율적인 공간주의 모듈에 대한 연구를 다루었다. 공간주의 모듈은 자연언어처리 분야에서 처음 연구가 시작되어 성능 향상과 장범위 의존성에 대해 학습능력 향상을 이루어냈고, 영상과 사진 처리 분야에도 활용이 되기 시작하여 좋은 성과를 내기 시작하였다. 공간주의 모듈에는 여러 가지 변형들이 존재하는데 이에 대한 자세한 분석이 존재하지 않았다. 이 논문에서는 여러 공간주의 모듈에 대한 기하학적인 정의를 이용한 분석을 하고, 어딴 모듈이 좋은 특성을 가지고 있는지에 대해 연구 하였다. 또한, 공간주의 모듈의 가장 큰 단점인 메모리와 계산량을 줄이는 효율적인 형태에 대한 제안을 하였다. 쓰는이가 제안하는 모듈의 가장 큰 장점은 다중머리 공간주의 모듈을 구현할 때 메모리와 계산량이 늘어나지 않는다는 것이다. 이를 통해 머리의 갯수를 자유롭게 늘릴 수 있고, 성능과 속도 메모리 면에서 모두 기존의 공간주의 모듈보다 뛰어난 새로운 공간주의 모듈을 제안한다.