서지주요정보
Multicue-based automatic face detection/tracking with its application to user intention reading = 멀티 큐 기반 자동 얼굴 검출/추적 및 사용자 의도 파악에의 응용
서명 / 저자 Multicue-based automatic face detection/tracking with its application to user intention reading = 멀티 큐 기반 자동 얼굴 검출/추적 및 사용자 의도 파악에의 응용 / Jun-Hyeong Do.
저자명 Do, Jun-Hyeong ; 도준형
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018866

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 08005

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Video detection/tracking of human faces becomes essential for a wide range of applications, including human-robot interaction, smart home, and construction of video databases. Since some form of automatic detection/tracking mechanism is employed when massive information of high-level context is processed as in facial expression recognition, intention reading, and behavioral understanding, it is desirable to keep the computational complexity of the face detection/tracking process as low as possible, maintaining a high detection rate and low false positive rate under various environmental conditions. However, previous approaches naively combined face detection module and face tracking module or do not show good performance in terms of detection rate, the number of false positives, and computational cost due to the ineffective integration of multiple cues. In particular, high computational cost and many false positives, and converging to a local maximum due to the face-like object are the critical problems of conventional techniques in face detection process and face tracking process, respectively. In this thesis, a unified framework, called “Multicue-based Dynamic Cascade Structure (MUDCAST)” is thus proposed for fast and robust automatic face detection/tracking in the environment where there are objects with features similar to those of the face. The proposed face detection/tracking system consists of three stages, namely, a pre-attentive stage, an assignment stage, and a post-attentive stage, which are cascaded and integrated with multimodal cues for effective and efficient processing of data. Here, the valid cues are selected in consideration of the trade-off between detection rate and the number of false positives occurred when we detect/track the face with the selected cues. Differing from typical automatic face detection/tracking structure, MUDCAST rapidly extracts face candidate regions in the pre-attentive stage, and then it assigns them to face detection process or face tracking process in the assignment stage. Especially, a decision maker in the pre-attentive stage and an assignor in the assignment stage are proposed to manage the processing flow dynamically according to the properties of the current image to reduce the computational cost. The candidate blobs assigned for face detection process make it possible to increase the detection rate and to reduce the false positive error as well as to reduce the computational cost by reducing the search space and search scale of the appearance-based face detector. The candidate blobs assigned for face tracking play a key role in preventing convergence to a local maximum by excluding most of background regions in extracting target region and target candidate region and by providing the face information of the current frame for the accurate face movement estimation conducting before the localization phase. Especially, the estimation phase proposed in the post-attentive stage estimates the face movements more accurately than the conventional prediction-based approaches by means of the information of candidate blob at the current frame as well as previous one. To confirm its overall performance of the unified face detection/tracking process, MUDCAST is compared with some well-known methods in terms of detection rate, false positives, and computational cost and is concluded to perform better and robust in a test set containing various false-like objects which may induce many false positives. Finally, the proposed MUDCAST is successfully applied to hand-gesture-based intention reading system, called “Soft Remote-control System” using real-time face and hands detection/tracking. The proposed MUDCAST is expected to be applied for a wide range of real applications such as face recognition, facial expression recognition, and intention reading that need to be operated with speed and robustness in a natural environment. Furthermore, it will be indispensable for the service robot, specially, for the elderly and the handicapped disabled.

비디오 영상에서 사람의 얼굴을 검출하고 추적하는 기능은 인간-로봇 상호작용, 스마트 홈, 비디오 데이터 베이스 구축 등 다양한 응용 분야에 꼭 필요한 요소로 자리 잡고 있다. 이러한 얼굴 검출/추적 결과는 얼굴 표정 인식, 의도 파악, 행동 이해와 같이, 보다 상위 수준의 복잡한 정보를 처리하기 위해 사용되므로, 전체 시스템이 신뢰성을 가지기 위해서는 높은 검출율과 적은 수의 긍정 오류(false positive)를 가지는 동시에 처리 시간이 짧은 얼굴 검출/추적 기법이 필요하다. 기존의 접근 방법들은 단순히 얼굴 검출 모듈과 얼굴 추적 모듈을 결합한 형태이거나, 멀티 큐의 비효과적인 통합으로 인하여 검출율, 긍정 오류율, 처리 시간 측면에서 좋은 성능을 보여 주지 못하고 있다. 특히 얼굴 검출 과정에서는 긴 처리 시간과 높은 긍정 오류율이, 얼굴 추적 과정에서는 얼굴과 유사한 특징들을 가지는 영역으로 인하여 얼굴 추적에 실패하게 되는 점이 가장 중요시 되는 문제점들 중 하나이다. 따라서, 본 논문에서는 얼굴과 유사한 특징들을 가지는 배경에서 얼굴을 빠르고 강인하게 검출/추적할 수 있는 통합된 구조-멀티 큐 기반 다이나믹 캐스캐이드 구조(Multicue-based Dynamic Cascade Structure, MUDCAST)-를 제안한다. 제안한 MUDCAST는 ‘전 주의 단계(pre-attentive stage)’, ‘할당 단계(assignment stage)’, ‘후 주의 단계(post-attentive stage)’ 의 3가지 단계로 구성되어 있으며, 데이터의 효과적이고 효율적인 처리를 위해 다양한 큐들을 단계적으로 처리하고 통합한다. 이때 사용되는 큐들은, 각각의 큐들의 조합을 사용하여 얼굴을 검출/추적할 때 발생하는 검출율과 긍정 오류의 개수 사이의 상충(trade-off) 관계를 고려하여 선택된다. 기존의 자동 얼굴 검출/추적 구조와는 달리, MUDCAST는 먼저 ‘전 주의 단계’에서의 빠르게 얼굴 후보 블럽(blob)들을 추출해 내고, 검출된 블럽들을 ‘할당 단계’에서 얼굴 검출에 필요한 블럽들과 얼굴 추적에 필요한 블럽들로 나누어 할당한다. 특히 ‘전 주의 단계’에서 제안한 의사 결정자(decision-maker)와 ‘할당 단계’에서의 할당자(assignor)는 현재의 입력 영상의 특징에 따라 연산 시간을 줄일 수 있는 데이터 처리 경로를 선택한다. ‘할당 단계’에서 얼굴 검출을 위해 할당된 후보 블럽들은 생김새(appearance)에 기반한 얼굴 검출기의 검색 영역과 크기 범위를 축소시킴으로써 처리 시간을 감소시킬 뿐만 아니라, 검출율을 증가시키고 긍정 오류의 개수를 감소시키는 역할을 한다. 얼굴 추적을 위해 할당된 후보 블럽은 추적된 얼굴 영역이나 얼굴 후보 영역을 추출할 때 배경 정보를 배제 시키는 역할과, 얼굴의 위치를 찾아내는 단계(localization phase) 이전에 수행하는 얼굴의 위치 추정 단계(estimation phase)에 현재 프레임의 얼굴 정보를 제공하여 정확한 얼굴 움직임을 추정할 수 있도록 하는 역할을 함으로써, 얼굴과 유사한 영역으로 추적하게 되는 경우를 방지한다. 특히 제안한 얼굴의 움직임 추정 방법은 이전 프레임의 얼굴 정보뿐만 아니라 현재 프레임의 정보를 함께 이용함으로써 갑작스러운 움직임이나 겹쳐지는 현상이 일어나는 환경에서 기존의 예측에 기반한 접근 방법보다 더 정확하게 얼굴의 움직임을 예측함을 보여 주었다. 기존의 잘 알려진 방법들과 비교하였을 때 제안한 MUDCAST는 많은 긍정 오류들을 야기할 수 있는 환경에서 검출율, 긍정 오류의 개수, 처리 시간 측면에서 그 성능이 매우 뛰어난 것으로 판명되었다. 끝으로 제안된 MUDCAST기법을 실시간 얼굴/손 추적 검출을 이용한 손 제스처 기반의 의도 파악 시스템-소프트 리모컨 시스템-에 적용하여 성공적인 결과를 도출하였다. 제안된 방법은 사용자 얼굴 인식, 얼굴 표정 인식, 의도 파악, 얼굴 검색 등 일반 환경에서 빠르고 강인하게 얼굴 추적/검출을 필요로 하는 다양한 응용 분야에 활용이 가능하며, 나아가서는 장애인이나 노약자를 위한 서비스 로봇에 꼭 필요한 핵심 기술이 될 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {DEE 08005
형태사항 ix, 120 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 도준형
지도교수의 영문표기 : Zeung-nam Bien
지도교수의 한글표기 : 변증남
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 참고문헌 : p. 112-120
주제 face detection;face tracking;intention reading;multiple cues;
얼굴 검출;얼굴 추적;의도 파악;멀티 큐;
QR CODE qr code