서지주요정보
Attention modules for feed-forward neural networks = 피드포워드 인공신경망을 위한 주의집중 모듈
서명 / 저자 Attention modules for feed-forward neural networks = 피드포워드 인공신경망을 위한 주의집중 모듈 / Jongchan Park.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032068

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18049

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep learning has been a major tool for pattern recognition tasks due to its high representational power. Given powerful baseline architectures with residual connections [27], inception architectures [77] or densely-connected architectures [35], many studies try to find better architectures with higher representational power and better generalizability via depth [75], width [95], cardinality [89, 12] and many other aspects of deep neural networks. In this dissertation, we investigate the effect of attention mechanism in feed-forward models. First, we propose a simple and light-weight attention module for deep convolutional neural networks (DCNN), named $Bottleneck Attention Module$ (BAM). Inspired by the attention $bottleneck$ in human brain [57], we place our attention module at every bottleneck of DCNN. Bottleneck regions in human brain reduce the information quantity and keep only the relevant part. In DCNNs, pooling operations explicitly reduce the information quantity of feature maps in a spatial manner. We define such pooling operations as \textit{bottlenecks} of DCNNs, and add our attention module to resemble bottleneck regions of human brains. Since our module is added upon any DCNN, we want to keep the parameter and computational overhead as small as possible. For an efficient design, we factorize our module into two separate yet complementary branches: spatial and channel-wise branches. The spatial branch generates a 2D spatial attention map where the target object's activation is enhanced, so the spatial branch looks for 'where' the target exists; the channel-wise branch generates a 1D channel-wise attention map, and since channels are often regarded as feature detectors, so the channel-wise branch looks for 'what' the target object is. The two separate branches are then combined into single 3D attention map with the same size as the input 3D feature vector. As a result, we show that $BAM$ can boost the performance across various baseline architectures and across various tasks. The second part of this dissertation is the attention mechanism with multiple modalities for better representation learning. Specifically, we investigate the use of attention mechanism with correspondence learning to tackle the adversarial attack problem. Previous works with a single modality such as images are vulnerable to adversarial attacks or fraud inputs. To effectively detect fraud inputs, we propose a deep neural network which utilizes multi-modal inputs with attention mechanisms and correspondence learning scheme. With attention mechanisms, the network can effectively learn the representation with multiple modalities. With the correspondence learning scheme, the network is forced to check the correspondence among modalities and thus can figure out the fraud inputs. We investigate the proposed approach in a reverse vending machine system, Nephron, where the task is to classify among 3 given classes (can, pet, glass), and reject any suspicious input. Specifically, we utilize 3 different modalities (image, ultrasound, and weight) with multi-modal attention and correspondence learning. As a result, we show that our proposed model can effectively learn to exclude fraud inputs while keeping a high accuracy in the given classification task.

딥러닝은 뛰어난 성능 덕분에 패턴 인식 분야에서 현재 가장 널리 쓰이고 있는 방법 중 하나이다. 성능 향상을 위해서 여러 방법들이 시도되어오고 있는데, 예를 들면 skip-connection, inception 구조, 또는 densely-connected 구조 등이 있다. 본 논문에서는 주의 집중 모듈을 이용한 피드포워드 인공 신경망의 성능 개선을 다룬다. 우선, 본 논문에서는 간단하고 오버헤드가 적은 (light-weight) 주의 집중 모듈을 제안한다. 해당 모듈은 병목 구간 주의 집중 모듈 (Bottleneck Attention Module, BAM)이라 명명한다. 인간 뇌의 병목구간에서 주의 집중이 일어나는 것에 착안하여, 인공 신경망에서도 병목구간이라 불리우는 곳에서 주의 집중 모듈을 사용하고자 한다. 해당 모듈을 사용함으로써 발생하는 오버헤드 (parametric, computational cost)를 줄이기 위해서 효율적인 모듈 디자인을 제안한다. 공간 축의 주의 집중 값 (2D)과 채널 축의 주의 집중 값(1D)을 조합하는 방식으로 최종적인 중간 값에 대한 전체 주의 집중 값(3D)을 생성한다. 공간 축의 주의 집중 값은 타겟 물체의 공간적인 위치를 포착하고, 채널 축의 주의 집중 값은 타겟 물체가 '어떤'것인지를 포착하는 데에 쓰인다. 이렇게 디자인 된 BAM 모듈은 여러 최신 네트워크 아키텍쳐 및 여러 인식 task에서 성능 향상을 보였다. 본 논문에서 두번째로 다룰 내용은 성능 향상을 위한 멀티모달에서의 주의 집중 모듈이다. 구체적으로, 본 논문에서는 부정행위 탐지를 위한 멀티모달 활용을 논한다. 기존 연구에서는 보통 하나의 모달리티(ex. 이미지)만을 사용했기 때문에 부정행위에 쉽게 노출이 될 수 있다. Reverse vending machine처럼 사용자에게 금전적인 이득을 돌려주는 시스템의 경우, 부정행위 적발은 매우 중요한 사안이다. 멀티 모달을 이용하면 인식 task 수행을 위한 다방면의 정보 획득이 가능하기 때문에, 부정행위 탐지가 조금 더 용이할 것이라 기대된다. 단순히 멀티 모달 정보를 융합하는 것으로는 높은 부정행위 탐지 성공률을 얻을 수 없다. 따라서 본 논문에서는 여러 모달리티 간 attention을 통해서 학습이 잘 되는 것을 보이고, correspondence learning을 통해서 모달리티 간 관계를 학습하도록 하였다. 최종적으로 제안되는 모델에서는 두 테크닉을 모두 사용하여 높은 정확도를 유지함과 동시에 대부분의 부정행위 탐지가 가능한 것을 보인다.

서지기타정보

서지기타정보
청구기호 {MEE 18049
형태사항 v, 41 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박종찬
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 35-39
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서