서지주요정보
Reducing human supervision in supervised learning = 약한 지도를 통한 물체 인식 학습
서명 / 저자 Reducing human supervision in supervised learning = 약한 지도를 통한 물체 인식 학습 / Dahun Kim.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032036

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The ability of deep networks to scale up model complexity allows deep learning to successfully tackle challenging visual tasks in computer vision. As the complexity increases, training the model requires large amounts of labeled data which involves costly human annotation effort. The reliance on expensive and error-prone human annotation limits the ability to build models for domains where annotations are particularly expensive. We consider object localization and representation learning(supervised pretraining) as two sub-areas of computer vision that heavily rely on human annotation. The first area, object localization relies on bounding box or pixel-level annotation which are timely and costly. The second area, representation learning is typically done on large collections of millions of annotated data. A significant number of methods have been proposed to tackle this thorny data issue. Among them, we consider weakly-supervised, and self-supervised learning which are promising research streams in object localization, and representation learning, respectively. The former, weakly-supervised learning in object localization takes training data of only image-level labels removing the burden of bounding box or pixel-level annotations. The latter, self-supervised learning for representation learning, manufactures a supervised task on raw images. This avoids the need of large-scale labeled data, but exploits unlimited amount of unlabeled data. Although such methods mitigate the burden of human annotation, they show limited performances compared to their fully-supervised counterparts. In this thesis, we identify and solve the main problems in existing methods for weakly-supervised object localization, and self-supervised representation learning. First, weakly-supervised object localization predicts the location and extent of objects using only image-level labels rather than bounding box or pixel-level annotations. However, the technique has an inherent weakness that it often fails to accurately capture the extent of objects because the image-level supervision encourages a network to focus only on the most discriminative parts of images. We tackle this issue by proposing two-phase learning with an insight that if we retrain the network while covering the most discriminative parts, it will highlight other important parts. Finally, we achieve our goal by merging the heat maps of the first and second networks. We demonstrate that the two networks learn complementary representations, and thus predict the extent of objects more accurately. In addition, we apply our learning scheme to existing state-of-the-art one-phase baselines in semantic segmentation and object saliency detection, and achieve significant improvements on the challenging PASCAL VOC dataset. Second, self-supervised representation learning refers to unsupervised pretraining that learns useful priors for downstream trainings, while manufacturing the supervisory signal automatically from raw data, as opposed to its supervised counterpart. However, the representations learned by existing self-supervsied methods are often task-specific and have limited task-generality. In order to learn more robust and general-purpose representations, we propose a strategy where we do diverse damages on input data and make the network to recover. We have been motivated by the idea that learning to recover more various damages will encourage the network to build richer and higher-level understanding of data than when uniform damage-and-recover is learned. In order to implement this idea, we begin by complicating existing single-task baselines: jigsaw puzzle, inpainting, and colorization. We show that complicating the self-supervised tasks leads to significant progress in closing the gap between supervised and unsupervised pretraining. To further close this gap, we unify these complicated versions into our final task: "completing damages jigsaw puzzles". We demonstrate that our learned representations are able to generally transferred on high-level target tasks. Among self-supervised learning methods, we achieve the state-of-the-art scores in PASCAL VOC classification and semantic segmentation. In addition, we qualitatively show that our learned representations are more robust and task-general compared to that learned by single-task baselines. The long-term goal of our research is to leverage the abundance of cheaply or freely labeled data. If these techniques continue to improve, they may one day supplant supervised learning methods. We provide a significant step toward this goal.

네트워크의 복잡도가 증가함에 따라, 딥러닝은 더욱 성공적으로 컴퓨터 비전 문제들을 풀 수 있게 되었다. 이러한 복잡도가 커질수록, 네트워크는 사람이 직접 라벨링한 수많은 양의 데이터를 필요로 하게 된다. 비싸고 에러에 취약한 사람의 라벨링에 의존하게 되면, 라벨링이 특히 비싼 영역에서의 학습 능력이 크게 제한된다. 우리는 컴퓨터 비전 분야에서 이러한 의존도가 큰 두 영역을 고려하는데, 이는 물체 위치 인식과 표현학습이다. 첫번째 물체 위치 인식은 보통 픽셀 레벨의 라벨링을 필요로 하고, 이는 매우 비싸다. 두번째 표현학습은 사람이 라벨링한 수백만장의 데이터를 이용하기 때문에 역시 많은 노동력을 필요로 한다. 최근 몇년간, 이러한 문제를 해결하기 위해 많은 방법들이 제안되어 왔다. 그 중, 우리는 물체 위치 인식과 표현학습 각각에서 유망한 연구 줄기인 약한 지도학습과 자가 지도학습을 다룬다. 물에 위치 인식에서 약한 지도학습은 픽셀 레벨의 라벨을 사용하지 않고, 이미지 레벨의 라벨을 사용한다. 표현학습에서의 자가지도학습은 이미지에서 지도 문제를 자동으로 만들어내기 때문에, 사람이 라벨링 하지 않은 무한한 양의 이미지를 이용할 수 있는 방법이다. 사람이 직접 라벨링해야 하는 부담이 줄어들긴 하지만, 이러한 방법들은 여전히 사람의 지도로 학습하는 방법 보다 성능이 낮다. 본 학위논문에서, 우리는 물체 위치 인식과 표현학습에서 제안되었던 기존 방법들의 문제점을 제시하고 해결한다. 첫째, 물체 위치 인식을 위한 약한 지도학습은 픽셀 레벨이 아닌 이미지 레벨의 라벨을 이용해서 물체의 위치와 범위를 추정한다. 이러한 방법의 근본적인 약점은, 이미지 레벨의 지도는 네트워크가 이미지에서 가장 특징적인 부분에만 집중하도록 만든다는 것이다. 결과적으로 학습이 완료된 특징 맵을 보면, 사람의 얼굴이나 자동차의 바퀴처럼 가장 특징적인 부분만 드러나는 것을 볼 수 있다. 이러한 특징 맵에 기반을 둔 이미지 분할이나 물체 검출 결과에서도 같은 결과가 나타나는데, 이는 정확도를 떨어뜨리는 주요한 요인이 된다. 우리는 이를 해결하기 위해 두개의 네트워크를 두 단계에 걸쳐 학습하는 방법을 제안하는데, 두번째 네트워크는 첫번째에 집중되었던 영역이 가려진 이미지만을 이용하여 학습하게 되고, 결과적으로 이미지의 또다른 중요한 부분을 검출하게 된다. 최종적으로 두 네트워크의 결과를 통합하여 물체의 범위를 더욱 정확하게 추정하게 된다. 우리는 최고 성능의 기존 이미지 분할 알고리즘에 우리의 방법을 적용하여 정확도를 더 향상시켰다. 둘째, 표현학습을 위한 자가 지도학습은, 목적 작업에서의 학습을 위한 사전 학습단계이기도 한데, 이미지 자체만을 가지고 지도 작업을 만들어 낸다. 하지만 이러한 방법으로 학습된 표현은 해당 지도 작업의 특성에 따라 편중되는 경항이 있어서, 일반적이고 강인한 특징을 포함하지 못한다. 보다 강인하고 일반적인 표현을 학습하기 위해, 우리는 이미지에 더욱 다양한 손상을 주고, 이를 복구하도록 네트워크를 학습시킨다. 이는 네트워크가 다양한 손상을 복구하면서 더욱 풍부한 지식을 배우게될 것이라는 가정에 기반을 둔 것이다. 이를 구현하기 위해, 우리는 기존의 단일 작업 세 가지를 선택하여 조합한다. 우리는 자가 지도 작업을 더욱 복잡하게 만드는 것이 지도학습과 비지도학습 사이의 성능 차이를 극복하는데 큰 도움이 됨을 확인한다. 세가지 작업을 모두 합친 최종 작업인 "손상된 퍼즐 복구"를 풀면서, 네트워크는 더욱 전이가 잘되고 일반적인 표현을 배우게 된다. 파스칼 분류, 물체 검출, 이미지 분할 작업에 전이학습 했을 때, 우리의 학습된 표현은 기존 단일 작업에서의 표현보다 높은 성능을 보일 뿐 아니라, 다른 최신 방법들 중에서도 최고의 성능을 보였다. 우리는 정성적으로도 학습된 표현이 일반적임을 보여준다. 우리 연구의 장기적인 목표는 값싸게 또는 무한하게 얻을 수 있는 라벨을 활용하는 것이다. 이러한 방법이 계속 발전된다면, 사람의 라벨링이 필요한 지도학습을 대체할 수 있게 될 것이다. 우리는 이 방향에서의 진일보를 제공한다.

서지기타정보

서지기타정보
청구기호 {MEE 18017
형태사항 v, 51 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김다훈
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 45-49
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서