서지주요정보
Cascaded inference for high quality single-shot object detection = 고속/고성능 물체 인식을 위한 중첩 추론 메커니즘
서명 / 저자 Cascaded inference for high quality single-shot object detection = 고속/고성능 물체 인식을 위한 중첩 추론 메커니즘 / Ho-Deok Jang.
저자명 Jang, Ho-Deok ; 장호덕
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033602

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MPD 19002

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In object detection, most accurate detectors are based on two-stage detectors based on R-CNN approach, where candidates are proposed and further refined after feature pooling step in cascaded manner. In contrast, one-stage detectors have advantages of being more efficient and simpler, but have lagged the accuracy of two-stage thus far. In this paper, we argue that one-stage detectors mainly suffer from architectural limitation, i.e, missing two-step cascaded inference mechanism that is applied in twostage detectors. Due to the lack of this mechanism, one-stage detectors struggle with two main arising issues: 1) sensitiveness of pre-defined anchor configuration, due to current heuristic anchor matching strategy, and 2) misalignment of receptive field in detection head induced by the fixed receptive field of the standard convolutional detection head. To incorporate the cascaded inference mechanism into the one-stage detectors and thus overcome these issues, we propose a novel single-shot detector, called RFAlignNet. Our model is composed of two sequentially inter-connected layers, i.e, anchor refinement layer and receptive field alignment detection head. The former layer coarsely refines the locations and sizes of the pre-defined anchors to provide better anchor set to latter detection head, reducing the issue of sensitiveness of pre-defined anchors. The latter layer further exploits the refined anchors to align the receptive field of detection head onto the object-related region, avoiding the misalignment issue. Our results show that with the proposed cascaded inference mechanism, RFAlignNet outperforms the accuracy of state-of-the-art one-stage and two-stage detectors, while preserving the high efficiency. Our model runs in real-time with only 24.9M of parameters that are less than the one of lightweight SSD (26.5M).

물체 검출에서 대부분의 고성능 검출기는 R-CNN 기반의 2단계 검출기에 기초한다. 2단계 검출기는 물체 후보군을 제안하고, 특징맵 풀링 단계를 거쳐 후보군을 중첩 추론 방식으로 정제화한다. 반면 1단계 검출기는 더 효율적이고 간단하다는 장점이 있지만 2단계 검출기보다 부정확하다. 본 학위 논문에서는 1단계 검출기의 성능 저하 원인에 대해 분석하고 그에 대한 해결책을 제시한다. 우리는 1단계 검출기의 성능 저하 원인이 구조적 한계 즉 2단계 검출기에 적용된 2단 추론 메커니즘의 부재에서 비롯되었다고 주장한다. 해당 메커니즘의 부재로 인해 1단계 검출기는 2가지 주요 문제점을 가진다: 1) 기존 체험적 앵커 매칭 기반 검출기 구조에서 사전 정의된 앵커의 민감성 문제 그리고 2) 표준 컨볼루션 검출 헤드의 고정 수용 영역에 의해 발생하는 검출 헤드 수용 영역의 오정렬 문제. 우리는 앞선 문제점들을 극복하기 위해 1단계 검출기에 2단 중첩 추론 메커니즘을 통합한 RFAlignNet이라는 새로운 1단계 검출기를 제안한다. 제안하는 검출기는 순차적으로 상호 연결된 두 개의 네트워크, 즉 앵커 정제 네트워크와 수용 영역 정렬 검출 헤드로 구성된다. 전자의 앵커 정제 네트워크는 후자의 검출 헤드에게 주어진 이미지내의 타겟 물체와 적합한 앵커를 제공하기 위해 사전 정의된 앵커의 위치와 크기를 정제한다. 이를 통해 사전 정의된 앵커의 민감도 문제를 해소한다. 후자의 수용 영역 정렬 검출 헤드는 앞서 정제된 앵커를 이용하여 검출 헤드의 수용 영역을 물체 관련 영역에 정렬하여 오정렬 문제를 해소한다. 다양한 실험 결과는 제안된 1단계 검출기를 위한 2단 추론 메커니즘을 통해 RFAlignNet이 높은 효율성을 유지하면서도 최첨단 1단계 및 2단계 검출기의 정확성을 능가한다는 것을 보여준다. 제안한 검출기는 실시간으로 동작하며 24.9M의 파라미터만을 사용한다. 이 수치는 경량 검출기에 속하는 SSD(26.5M)보다 적은 수치이다.

서지기타정보

서지기타정보
청구기호 {MPD 19002
형태사항 iv, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장호덕
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 미래자동차학제전공,
서지주기 References : p. 25-27
주제 Computer vision
deep learning
object detection
컴퓨터 비전
딥러닝
물체 검출
QR CODE qr code