Within the class of a perceptual user interface(PUI) that is providing the computer with perceptive capabilities, computer vision is being exploited more and more as a new modality or in replacement of standard interaction paradigms. One step towards the realization of PUIs is the creation of VBI (View-Based Interface) projects, which consist of several image processing algorithms to handle user tracking, face tracking/pose estimation, 3D articulated body tracking, and appearance-based gesture recognition. In this viewpoint, we have studied an on-line static and dynamic gesture recognition technique using several image processing and recognition modeling algorithms.
In the previous works, the main target of static gesture recognition is hand posture recognition based on sign language processing for blind people. However, in this study, we develop the arm/body postures recognition techniques, why most general people use arm/body postures more than hand postures when talking each other.
In this dissertation, we have conducted the following three phases for the recognition of static gestures. The first step is defined a spotting algorithm to detect the start and end position from a series of natural arm/body motions. The second step is an effective feature extraction method for recognizing various gestures. The third step is to make recognizing model based on knowledge-based system.
In the preprocessing stage for dynamic gesture signals, our approach consists of three procedures: hand localization, hand tracking, and gesture spotting. The hand location procedure detects hand candidate regions on the basis of skin-color and hand motion. The hand tracking algorithm finds the centroids of the moving hand regions, connects them, and produces hand trajectory coordinates. Finally, the gesture spotting algorithm divides the trajectory into real and meaningless segments.
Many dynamic gesture recognition methods have been proposed: syntactical analysis, neural networks, the Hidden Markov Model (HMM), and so on. In this paper, an HMM is proposed because the implemented HMMs have great adaptability and versatility in handling time sequential signals.
To construct an observation sequence database for the HMM recognition model, our approach uses combined and weighted location, angle and velocity feature codes and employs a k-means clustering algorithm for codebook generation. In our experiments, 2,400 trained gestures and 2,400 untrained gestures were used for training and testing, respectively, for dynamic gesture recognition.
Our experimental results demonstrate that the proposed approach yields a satisfactory and higher recognition rate for on-line static and dynamic gesture recognition.
새로운 인지적 사용자 인터페이스를 현실화하는데 있어서 사용자 추적, 얼굴 추적/포즈 측정, 3D 몸체 추적 및 모양 기반 제스처 인식 등의 여러 영상처리 기법들을 이용한 영상기반 인터페이스 개발에 관한 프로젝트가 활발히 진행 되고 있다. 이러한 관점에서, 본 연구에서는 인지적 사용자 인터페이스를 위한 온라인 정적 및 동적 제스처 인식 기법을 제안한다.
이전 연구에서, 정적 제스처 인식의 주요 목표는 시각 장애자를 위한 수화 인식에 기반한 손 동작 인식이 주를 이뤄왔다. 그러나, 대부분의 일반인들이 손동작 보다는 손 혹은 몸 동작 포스처를 이용하여 자연스럽게 의사를 전달한다는 가정아래, 본 연구에서는 손/몸 동작 포스처를 인식하는 기법을 제안한다. 본 연구에서 제안한 정적 포스처 인식은 크게 3단계를 거친다. 첫번째 단계는 연속적인 손/몸 동작 중에서 인식하고자 하는 포스처의 시작과 끝 부분을 추출하는 스팟팅 알고리즘이고, 두 번째 단계에서는 다양한 제스처를 인식하기 위한 효율적인 특징들을 정의하고 추출하는 단계이다. 마지막 단계에서는 지식기반 시스템에 기초하여 인식 모델을 생성한다.
동적 제스처 인식을 위한 전처리 단계로는 일반적으로 손 영역화, 손 추적 및 스팟팅의 세 단계를 거친다. 본 연구에서 제안한 손 영역화 단계에서는 피부색과 움직임 정보를 이용하여 입력 영상에서 손의 후보 영역을 추출한다. 손 추적 알고리즘은 움직이는 손 영역의 중심 위치를 찾은 후, 이를 시간 순차적으로 연결하여 동적 제스처 궤적을 생성한다. 마지막으로 제스처 스팟팅 알고리즘은 전체 제스처 궤적 중 의미 없는 궤적을 제거한다.
기존의 동적 제스처인식 모델로는 구조적 분석, 신경망, HMM등을 들 수 있다. 본 연구에서는 시간에 따른 연속적인 데이터 처리에 있어 가장 적응력이 높고 효율적으로 알려진 HMM모델을 인식기로 구현하였다. HMMs 인식 모델을 위한 입력 관측열 생성을 위해, 본 연구에서는 각 특징별 중요성에 따른 가중치를 갖는 위치, 각도 및 속도 특징을 결합하는 기법을 제안하였고, 일반 카텐셜 좌표계와 폴라 좌표계에서 실험하였다.
본 연구의 실험 결과는 제안된 기법이 온라인 정적 및 동적 제스처 인식 시 기존의 방법론 보다 우수하거나 유사한 높은 인식율을 갖음을 보여준다.