서지주요정보
Incremental user adaptation in Korean sign language recognition using motion similarity and adaptation history = 동작유사도와 추이 예측을 이용한 한국 수화 인식에서의 사용자에 대한 적응
서명 / 저자 Incremental user adaptation in Korean sign language recognition using motion similarity and adaptation history = 동작유사도와 추이 예측을 이용한 한국 수화 인식에서의 사용자에 대한 적응 / Seong-Hoon Jung.
저자명 Jung, Seong-Hoon ; 정성훈
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018338

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 07004

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In the last decade, there have been a great deal of researches on hand gesture recognition and its utilization as a human computer interface. Among them, Korean Sign Language (KSL) recognition has been recognized as a promising interface between the deaf and the people who have little knowledge of KSL. For the recognition, researchers usually gather a huge database of gesture instances from various users and then train a recognizer with them. The constructed model by this approach is called Gesturer-Independent Model (GIM). Recognition using this GIM approach has some disadvantages in case when there is severe inter-person difference in KSL. Although best recognition performance is achieved by using Gesturer-Dependent Model (GDM) con structed from training instances of the specific user, it is hard to implement GDM because construction requires the user to provide too many training instances to the system. This burden can be resolved by applying user adaptation technique whose aim is to tune GIM into the user adapted model by using small user-specific data. There are several techniques appeared in the lituratures. Among them, Maximum a Posteriori (MAP) is widely used in speak adaptation. This method update or adapt model parameters of the state of HMM by summing statistics of given adaptation data and parameters of previous model. The issue of this update, especially with regard to incremental user adaptation, is that when the unobserved state appears in adaptation data, how we update model parameters of them. Because unobserved states is the states that are not observed in the adptation data, there is none of information given for update. For this matter, conventional method updates the model parameters of unobserved states using adaptation data which belongs to other observed states - those are close in the model parameter space - with the assumption that close states in model parameter space may have similar direction of adaptation. Although conventional method is known to successfully perform speaker adaptation with this assumption, these methods cannot be directly applied to the user adaptation in KSL recognition in the sense that its assumption is not valid in the area of KSL recognition. So in this thesis, we formulated our problem such that when a GIM and user-specific training data is given which is provided to the system incrementally over time, update model parameters of all states incrementally even though some of states become unobserved states. For update of model parameters in unobserved states, we proposed two methods, one of which estimate model parameters of unobserved states by utilizing the information comes from the related observed states, the other update the model parameters of unobserved states using prediction from adaptation history. Even though KSL seems to be complex motion, it consists of elementary motions such as line-type motion and circular-type motion. This observation led us to the fact that there are a group of elementary motions to be similarly adapted. If the signs whose motions are similar each other, then they have high chance of being adapted similarly in the sense of global length and motion velocity. Based on this observation, we made a hypothesis such that model parameters of states whose motions (trajectory in sign space)are similar become adapted similarly. We defined trajectory as the motion of right hand because right hand is primarily used in KSL. For the measurement of degree of similarity in motion, we utilized dynamic time warping (DTW) technique which measures distance between two sequential data. After calculating motion similarity for all state pairs, model parameters of an unobserved state can be updated by sharing the adaptation data from an observed state which has highest motion similarity. Secondly model parameters of unobserved state can be predicted if we know history of adaptation in model parameters. By observation, we realized that adaptation of model parameters of states is consistent, in other words, there is little abrupt change in adaptation process. So we accumulated adaptation of model parameters of a certain state over time and predict its value if the state become unobserved in adaptation data. We adopted 2nd order markov random process for modeling dynamics of adaptation process with the observation of consistency. But we admitted that there sometimes abrupt change in change of model parameters. In that case, predictor have produced erroneous output. For resolving this erroneous prediction, we set up a measure of confidence for the prediction. We evaluated lately N predictions and then calculated averaged error of prediction. We set confidence value of current result of predictor as high when averaged error of lately prediction is low. Both methods proposed for the update of model parameters of unobserved states have some disadvantages. For the former, there is chance that states whose motion similarity for the specific unobserved state is high become unobserved state too. For the latter, predictor produces erroneous result if there is abrupt change in adaptation process. Instead of using both methods respectively, we proposed method utilizing both methods simultaneously. For the hybrid method, model parameters of unobserved states are updated by summing total estimation which comes from both methods and previous model parameters. For the total estimation, we utilized confidence measure of predictor. So if the predictor become less reliable, we decreased weight for the prediction from adaptation history and increased the weight for the estimation from motion similarity. To evaluate proposed methods, we performed experiments using KSL database. KSL database was constructed with 8 subjects who were deaf students in middle school. Subjects were asked to perform single sentence without pause and repeat it more than 10 times. We chose 20 different sample sentences in which averagely 6.5 words are. Totally 1891 sentences and 12292 words were collected. We leaf out 30% of sentences for validation set, and the others for adaptation data. Through the experiments, we showed that proposed methods utilizing motion similarity and adaptation history outperformed the conventional method, MAP. And we also showed that the complexity of proposed methods in the sense of processing time. We showed that even in large-vocabulary case processing time for user adaptation can be tolerated because it can be processed in off-line or utilizing time between sentences. Throughout this thesis, we firstly introduced the reason why user adaptation capability is needed in KSL recognition. And we pointed out the matter of update of unobserved states and its importance in recognition process. For this problem, we proposed two methods and its hybird form utilizing motion similarity and adaptation history to extract information for the update of unobserved states. By performing experiments with KSL database, we showed that our proposed methods successfully adapted user's characteristic even faster than previous method which did not update unobserved states.

최근 들어 손 제스처를 인간-기계 인터페이스(Human computer interface)로서 활용하고자 하는 많은 연구가 있어 왔다. 그 중에서 수화 인식은 청각장애우와 비청각 장애우 사이의 원활한 의사 소통을 하게 해 주는 인터페이스로서 중요성이 날로 더해가고 있다. 그러나 기존의 연구는 인식 시스템을 사용하는 사용자가 사전에 미리 등록되어 있어야 한다는 단점을 가지고 있다. 즉 사전에 시스템에 학습 데이터를 제공하고 시스템은 이를 이용해서 단일 사용자를 위한 수화자 종속 모델(Gesturer-Dependent Model: GDM)을 생성하거나, 다수 사용자를 위한 수화자 독립 모델(Gesturer-Independent Model: GIM)을 생성한다. 하지만 사용자마다 수화를 표현하는 방식에 차이가 존재하기 때문에 수화자 독립 모델만을 사용하는 경우 인식률의 저하를 초래하게 된다. 수화자 종속 모델의 경우 인식률이 가장 높지만 단일 사용자로부터 많은 데이터를 얻어야 함으로 현실적으로 생성하기 어렵다. 이러한 문제점을 해결하기 위해서는 GIM이 주어질 때 GIM을 변형시켜 사용자의 특성을 반영할 수 있도록 하는 사용자에 대한 적응 과정이 필요하다고 하겠다. 기존에 은닉 마르코프 모델 기반의 사용자에 대한 적응에 대한 연구들이 있어왔다. 그 중에서 Maximum a Posteriori (MAP)는 음성에서의 화자 적응에 널리 이용되어져 왔다. MAP는 이전 모델의 파라미터를 현재 주어진 adaptation data에서 추출한 파라미터와 결합하는 방식이다. 이 방법이 incremental adaptation의 경우에 적용되는 경우 adaptation data에서 관측되지 않은 unobserved state의 파라미터를 어떻게 update할 것인가가 문제가 된다. 기존 방법은 모델 파라미터 공간상에서 가까이 위치한 다른 observed state들의 adaptation data로부터 unobserved state의 모델 파라미터를 추정하는 방법을 사용하였다. 이러한 방법은 기본적으로 기본적으로 모델공간에서의 유사한 공간에 위치한 state들은 유사한 adaptation direction을 가진다는 가정에 근거하고 있다. 하지만 수화 인식에 있어서는 이러한 가정이 성립하지 않는 것을 실험을 통해 확인하였다. 본 논문에서는 이와 같이 incremental adaptation에 있어서 GIM과 adaptation data가 주어질 때 모델 파라미터를 변화시키는 문제를 다루고자 하였다. 특히 unobserved state의 모델 파라미터를 추정하는 것이 인식률의 향상에 있어서 유리하므로 어떻게 이를 추정할 것인가에 대한 방법을 제시하고자 하였다. 수화에서 나타나는 운동은 직선과 원 운동과 같은 elementary motion의 조합으로 표현된다. 실제 청각 장애인들의 수화 동작을 관찰한 결과 동작이 유사한 sign의 경우 adaptation이 되는 특성도 유사하다는 것을 발견하였다. 다시 말해서 동작이 유사한 경우 해당 동작의 길이와 속도에 있어서 변화의 방향이 유사하다는 사실을 관찰하였다. 여기서 동작은 특징 벡터의 오른손의 위치 vector에 의해서 표현된다. 이러한 관찰을 바탕으로 동작이 유사한 state들은 adaptation direction도 유사하다는 가정을 세웠다. 이러한 동작의 유사도를 측정하기 위해 서로 길이가 다른 sequential data 사이에 거리를 측정하는 dynamic time warping 기법을 이용하였다. 이를 이용해서 모든 state들 사이에 동작 유사도를 측정하였고 unobserved state의 파라미터는 동작 유사도가 높은 observed state의 adaptation data를 이용해서 추정하였다. 두 번째로는 특정 state의 파라미터가 update되 추이를 계속해서 누적시키게 되면 이 state가 unobserved state가 되는 경우에는 추이 예측을 통해서 파라미터를 추정 할 수 있다. 우리는 대부분의 경우 이러한 추이가 consistent하다는 것을 관찰하였다. 이처럼 consistent한 추이에 대해서 2차 markove random process를 통해서 추정을 수행할 수 있다. 하지만 어떤 경우에는 이러한 추이가 inconsistent하게 나타나는 경우도 발생하므로 추정의 신뢰도를 정하는 것이 필요하였다. 우리는 최근 N개의 추정으로부터 발생한 평균 오차를 계산하여 이러한 오차가 큰 경우에는 현재의 추정에 대한 신뢰도를 낮게 하고 반대인 경우에는 높게 하여 오차가 큰 경우 이를 제외하도록 설정하였다. 제안한 두 가지 방법은 각각 장단점을 가지고 있다. 전자의 방법의 경우에는 파라미터 변화 추이가 충분하지 못한 경우에도 adaptation을 수행할 수 있다는 장점이 있는 반면, 경우에 따라서는 동작 유사도가 높은 observed state가 존재하지 않을 수가 있다. 후자의 방법은 adaptation 과정이 inconsistent 한 경우에는 추정이 부정확한 단점을 가지고 있다. 그러므로 각각의 방법을 독립적으로 사용하기 보다는 서로의 단점을 보완할 수 있도록 결합하여 사용하는 것이 효과적이다. 양자의 방법을 결합한 형태로 제안한 방법에서는 두 가지 방법으로 인한 추정치를 가중합을 이용해서 unobserved state의 파라미터를 추정하였다. 이 때 가중합에 사용되는 가중치는 두번째 방법에 의한 추정의 정확도를 근거하여 정하였다. 제안한 방법의 타당성을 검증하기 위해서 본 연구에서는 실제 청각 장애인들로부터 획득한 수화 데이터베이스를 바탕으로 실험을 진행하였다. 총 8명의 수화자로부터 16단어, 20문장에 해당하는 총 20*16*8=2400문장의 데이터베이스를 획득하였다. 전체 이용가능한 문장의 70%를 적응 데이터로, 나머지 30%를 테스트 데이터로 분류한 후 동일한 실험을 각 사람에 대해서 30번씩 반복하여 수행하였다. 실험결과 각 사용자마다 차이는 있지만 기존 방법을 통한 것보다 제안한 방법이 단어 레벨의 인식에 있어서나 문장 레벨의 인식에 있어서나 기존의 방법에 비해 더욱 빠르게 인식률을 향상시키는 것을 확인하였다. 또한 연산 시간에 대한 Complexity를 분석하였다. 그리고 대용량의 단어를 다루는 시스템에 있어서도 제안한 방법이 구현 가능하다는 것을 보였다. 본 논문에서는 한국 수화 인식에 있어서의 사용자에 대한 적응의 필요성에 대한 고찰과 함께 동작 유사도와 추이 예측을 이용한 사용자 에 대한 적응의 방법을 제안하였다. 이러한 수화 인식에서의 사용자 적응 기능의 구현은 실제 수화에 있어서의 다양성을 고려했다는 점에서 의의가 있다고 하겠다.

서지기타정보

서지기타정보
청구기호 {MEE 07004
형태사항 ix, 58 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정성훈
지도교수의 영문표기 : Zeung-Nam Bien
지도교수의 한글표기 : 변증남
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 55-58
주제 User Adaptation
Sign Language Recognition
사용자 적응
수화 인식
QR CODE qr code