서지주요정보
Learning to embed, align, and augment : application to face and object recognition = 임베딩, 정렬, 증강을 위한 훈련 방법과 얼굴 및 객체 인식에의 응용
서명 / 저자 Learning to embed, align, and augment : application to face and object recognition = 임베딩, 정렬, 증강을 위한 훈련 방법과 얼굴 및 객체 인식에의 응용 / Donghoon Lee.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034702

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19054

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In computer vision, images are transformed into various forms for various purposes. For example, images are transformed into embedding vectors lie on special space to improve performance and robustness. Face images are transformed for locating their eyes, nose, and mouth in the same position. Images are augmented through label preserving transformations. This dissertation studies models and learning methods to transform images---embed, align, augment---with application to face and object recognition. First, this dissertation proposes a sparsity sharing embedding method that transforms face images into embedding vectors which are robust to variations in pose, illumination, and expression. The SSE is built on a generic identity dataset where each identity contains multiple faces under large intra-personal settings. An embedding space is learned to preserve inter-personal structures of intra-personal settings. Face images are transformed into embedding vectors, thus robust face verification under large variations in pose, illumination, and expression can be achieved. Second, two face alignment methods that locating eyes, nose, and mouth at the same position are proposed. The first method, a parallel joint boosting, simultaneously estimates poses and face landmarks. It iteratively updates the poses and face landmarks in a stage-wise manner: pose probabilities are updated based on previous face landmark estimates and face landmark estimates are updated based on previous pose probabilities. The second method is cascade Gaussian process regression trees (cGPRT). Here, GPRT is a Gaussian process with a kernel defined by a set of trees. Without increasing prediction time, the prediction of cGPRT can be performed in the same framework as the cascade regression trees (CRT) but with better generalization. Lastly, a data augmentation method is proposed to learn image transformations that improve generalization performance. Data augmentation has a large impact on the generalization performance of the image classification model. However, it is currently conducted on the basis of trial and error, and thus, the generalization performance cannot be predicted during training. This study considers an influence function that predicts how generalization performance is affected by a particular augmented training sample in terms of validation loss. The influence function provides an approximation of the change in validation loss without actually comparing the performances that include and exclude the sample in the training process. Based on this function, a differentiable augmentation network is learned to augment the input training sample to reduce validation loss.

컴퓨터 비전에서 이미지는 다양한 목적을 위해 다양한 형태로 변환된다. 예를 들어, 이미지를 특수한 공간의 임베딩 벡터로 변환시켜 인식 성능과 강인성을 높이고, 얼굴 이미지를 변환시켜 눈, 코, 입이 같은 위치에 있도록 정렬시키거나, 이미지에 라벨을 보존하는 변환을 가해 데이터를 증가시키기도 한다. 이 논문에서는 다양한 이미지 변환---임베딩, 정렬, 증강---과 이를 응용한 얼굴 및 객체 인식 방법을 제안한다. 첫 번째로 얼굴 이미지를 다양한 포즈, 조명, 표정 변화에 강인한 임베딩 벡터로 변환하는 스파시티 공유 임베딩(Sparsity Sharing Embedding, SSE) 방법을 제안한다. 사람의 이름을 기준으로 데이터 세트를 구축하는데 각 사람의 데이터는 다양한 포즈, 조명, 표정 세팅의 얼굴 이미지로 구성된다. 임베딩 공간의 사람 간 구조가 모든 세팅의 특징 공간에서의 사람 간 구조를 유지하도록 훈련되며, 입력 얼굴 이미지를 임베딩 벡터로 변환함으로써 다양한 포즈, 조명, 표정 변화에 강인한 얼굴 인식을 수행할 수 있다. 두 번째로 얼굴 이미지의 눈, 코, 입이 같은 위치에 있도록 정렬시키는 얼굴 정렬 방법 두 가지를 제안한다. 먼저 얼굴의 포즈와 랜드마크는 서로 관련성을 갖고 있다는 가정하에 얼굴의 포즈와 랜드마크를 동시에 추정하는 방법을 제안한다. 얼굴의 포즈와 랜드마크를 여러 단계를 걸쳐 반복적으로 업데이트하는데, 각 단계에서는 전 단계의 얼굴 랜드마크 추정치를 활용한 포즈 추정과 전 단계의 포즈 추정치를 활용한 얼굴 랜드마크 추정을 수행해 성능을 높인다. 다음으로 회귀 트리 커널에 기반한 연속 가우시안 프로세스를 사용한 얼굴 정렬 방법을 제안한다. 이 연구에서는 트리를 기반으로 한 새로운 형태의 커널을 정의하고, 이를 활용한 가우시안 프로세스는 예측 시 일반적인 트리와 같은 형태의 함수를 사용하도록 변환될 수 있다는 것을 보인다. 마지막으로 일반화 성능을 향상시키기 위한 데이터 증강 방법을 제안한다. 데이터 증강은 인식 모델의 최종 성능에 큰 영향을 미치나, 아직 시행착오에 의존한 방법으로 수행된다. 따라서 데이터 증강 방법이 최종 성능에 미치는 영향은 훈련과정에서 예측할 수 없다. 이 연구에서는 변환된 훈련 이미지에 의해 일반화 성능이 어떻게 영향을 받는지 예측하는 영향 함수를 고려한다. 영향 함수는 훈련과정에서 변환된 훈련 이미지를 훈련과정에 포함했을 때와 포함하지 않았을 때의 검증 손실 함수의 변화에 대한 근사치를 제공한다. 영향 함수를 사용해 뉴럴넷 기반 데이터 증강 모델이 검증 손실 함수를 최소화 하는 이미지 변환을 학습하도록 한다.

서지기타정보

서지기타정보
청구기호 {DEE 19054
형태사항 x, 90 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이동훈
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 80-88
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서