서지주요정보
(A) study on the continuous hand gesture recognition system for the Korean sign language = 한글 수화용 연속적 손동작 인식 시스템에 관한 연구
서명 / 저자 (A) study on the continuous hand gesture recognition system for the Korean sign language = 한글 수화용 연속적 손동작 인식 시스템에 관한 연구 / Jung-Bae Kim.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015542

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 04014

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Sign language is a representative example of hand gestures with linguistic structure and is important for communication among the hearing impaired. When a hearing-impaired person expresses gesture in the form of sign language, it is not a word-by-word gesture, but a continuous gesture. It is remarked that most studies about sign language recognition have concentrated on isolated sign word. While some studies have dealt with recognizing continuous sign language, they focused on simple connected types of isolated sign words. Continuous sign language gestures include not only sign words but also linking gestures (LGs) between words. To recognize continuous gestures, it is necessary to segment them into individual sign words. Thus, any method based solely on sign word recognition is not sufficient for real-world implementation. This thesis considers two conspicuous problems in for a continuously inputted hand motion pattern in Korean Sign Language (KSL). One is gesture segmentation problem, which means segmenting meaningful gestures (MGs) from a continuous sign language. LGs can occur between two consecutive words or between two consecutive sentences. This problem means to remove LGs from a continuous language, and to determine start and end point of MG. The other problem is a gesture matching (classification) problem, which is to decide what the gesture is by using extracted features. There are two different LGs. We call linking gesture between two consecutive sentences as $LG^#I$, while those between the words is $LG^#II$. When a signer has tendency to pause intentionally between sentences, but does not pause too much between words in a sentence. To notice pause of gesture, we have examined the motion of hand, that is, 'speed' and 'change of speed' of the hands. While sentence gesture and $LG^#I$ have different speed feature, there is almost no difference on speed features between $LG^#II$ and sign word gestures since the speed of $LG^#II$ is as fast as sign word gestures. We denote the process removing $LG^#Is$ and segmenting individual sentences from a continuous gesture as sentence segmentation. And we denote the process removing $LG^#IIs$ and segmenting individual words from a sentence as word segmentation. We have two observations on sentence segmentation, which are "An MG always experiences a stroke phase and an ending motion phase." and "An MG has a relatively bigger circular trajectory than $LG^#I$ in the plane of 'speed' versus 'change of speed' axes." Based on these observations, we make gesture tension model composed of motion phases. To summarize gesture tension model, MG has stroke phase (speed increases rapidly) and ending motion phase (speed decreases rapidly). In order to deal with 20 rules of complex gesture pattern, we use the fuzzy logic and state automata. Each sign sentence consists a set of $LG^#IIs$ and sign words. Word segmentation is done through two processes: elementary hand motion (EM) segmentation and gesture word matching. By using EM segmentation, a sentence is disassembled into a set of EMs according to its geometric pattern. Based on the observation such as "There is always a big direction change between EMs.," we disassemble a sign sentence. To deal with linguistic value of direction change, we adopt the fuzzy logic. As the results of gesture segmentations, we get a set of individual gestures. To understand the meaning of a gesture, we employ the concept of two sign phonemes: hand motion and hand posture. In our recognition system, hand motion and hand posture classifier adopts hidden Markov model (HMM) and fuzzy min-max neural network (FMMNN), respectively. HMM is known to be very effective in modeling spatio-temporal information and is robust to noisy data. FMMNN is found to be quite effective in modeling static data since it requires no pre-learning about static data class. Finally, we get 97.0% accuracy for 30 KSL words and 94.7% accuracy for 15 KSL sentences with 15-frames/sec speeds. The proposed method is faster and more accurate than any previous methods since we deal gesture segmentation and gesture matching independently. Though our goal is to develop a vision-based continuous KSL gesture recognition system, we also introduce a glove-based continuous KSL gesture recognition system so as to show our method can successfully apply to the glove-based system. Because of easy measurement for hand data, the glove-based system could deal with much more number of KSL word than the vision-based system.

수화는 손동작 (hand gesture)의 대표적인 예로서 언어적 구조를 가지고 있으며, 청각장애인의 의사소통에 중요한 역할을 한다. 청각장애인이 수화로 손동작을 표현할 때에, 그 손동작은 개별단어 형태의 손동작이 아니라 연속적인 손동작이 된다. 지금까지의 수화 연구는 대부분 개별 수화 단어 인식에 집중되어 왔다. 몇몇 연구가 연속적인 수화 인식을 다루고 있지만, 이들은 개별 수화 단어가 단순하게 연결된 형태에 초점이 맞추어져 있다. 연속적인 수화 손동작은 수화 단어뿐만 아니라 의미 없는 연결 손동작 (linking gesture: LG)을 포함하고 있다. 이러한 수화 손동작을 인식하기 위해서는, 이들을 개별 수화 단어로 분할해야 한다. 그렇기에, 개별 수화 단어 인식만 다루고 있는 방법은 실세계의 구현이라는 측면에서는 충분하지 않다. 본 논문은 한글수화가 연속적인 손동작으로 입력될 때 생기는 두 가지의 중요한 문제를 다루고 있다. 하나는 손동작 분할 문제 (gesture segmentation problem)로서 연속적인 수화에서 의미 있는 손동작을 분할하는 것이다. LG는 잇따르는 두개의 수화 단어 혹은 수화 문장 사이에 생길 수가 있다. 그렇기에 이 문제는 연속적인 수화에서 LG를 제거하는 것인 동시에, 의미 있는 손동작의 시작과 끝점을 결정하는 것이라고 할 수 있다. 다른 하나의 문제는 손동작 정합 문제 (gesture matching problem)로서, 추출된 특징을 이용하여 손동작의 의미를 결정하는 것이다. 두 가지의 서로 다른 LG가 존재한다. 잇따르는 두개의 문장 사이의 LG를 $LG^#I$ 이라 부르겠고, 두개의 단어 사이의 LG는 $LG^#II$ 라고 부르겠다. 수화자는 문장 사이에서는 의도적으로 멈추려고 하는 경향이 있는 반면, 문장 내의 단어 사이에서는 그런 경향이 적다. 손동작의 멈춤을 알기 위해서, 우리는 손의 운동을 조사하였다. 다시 말해, 손의 '속력'과 '속력 변화'를 조사하였다. 문장 손동작과 $LG^#I$ 는 서로 다른 속력 특징을 가지고 있는 반면에, $LG^#II$ 는 수화 단어 손동작 만큼이나 빠르기 때문에 이들 사이의 속력 특징의 차이는 거의 없다. 연속적인 손동작에서 $LG^#I$ 를 제거하고 개별적인 문장들을 분할하는 과정을 sentence segmentation이라고 하고, 한 문장에서 $LG^#II$ 를 제거하고 개별적인 단어들을 분할하는 과정을 word segmentation이라고 하겠다. Sentence segmentation을 위하여 두 가지 관측을 얻었는데, 이들은 "의미 있는 손동작은 stroke phase 와 ending motion phase를 갖는다."와 "'속력'과 '속력 변화' 축으로 된 평면에서 의미 있는 손동작은 $LG^#I$ 보다 상대적으로 큰 원형 궤적을 갖는다."이다. 이러한 관측에 기초하여, 우리는 motion phase의 gesture tension model을 구성하였다. Gesture tension model에 대하여 간략히 말하면, 의미 있는 손동작은 stroke phase (속력이 크게 증가) 와 ending motion phase (속력이 크게 감소)를 갖는다는 것이다. 복잡한 손동작 패턴의 20가지의 규칙을 다루기 위해서, 우리는 퍼지 논리와 상태 오토마타를 사용하였다. 각 수화 문장은 $LG^#II$ 들과 수화 단어의 집합으로 구성되어 있다. Word segmentation은 elementary hand motion (EM) segmentation 과 손동작 정합이라는 두 가지의 과정을 통해서 이루어진다. EM segmentation을 이용하여, 문장은 그 기하학적 패턴에 따라서 EM들의 집합으로 분할이 된다. "EM들 사이에는 큰 방향 변화가 항상 존재한다."라는 관측에 기초하여 수화 문장을 분할하였다. 방향 변화의 언어적인 값을 다루기 위해서 퍼지 논리를 채용하였다. 이러한 손동작 분할 과정의 결과로서, 우리는 개별적인 손동작의 집합을 얻었다. 손동작의 의미를 이해하기 위해서, '손운동'과 '손모양'이라고 하는 두가지 수화소 (sign phoneme)라는 개념을 채용하였다. 우리의 인식시스템에서, 손운동과 손모양 인식기는 은닉 마르코프 모델 (hidden Markov model: HMM)과 퍼지 최대-최소 신경망 (fuzzy min-max neural network: FMMNN)을 각각 채용하였다. HMM은 시공간 데이터를 모델링하는데 매우 효율적이며 잡음이 섞인 데이터에 강인하다고 알려져 있다. FMMNN은 정적인 데이터를 모델링하는데 매우 효율적이며 미리 학습할 필요없이 온라인 학습이 가능하다. 인식 실험 결과로서, 우리는 초당 15 프레임의 속도로 30개의 한글 수화 단어에 대해서 97.0%의 인식률을 얻었고, 15개의 수화 문장에 대해서 94.7%의 인식률을 얻었다. 제안된 방법은 손동작 분할과 손동작 정합을 독립적으로 다루고 있기에, 기존의 어떤 방법보다 빠르고 정확하였다. 본 논문의 목표는 비전에 기초하여 연속적인 한글 수화 손동작 인식 시스템을 개발하는 것이지만, 제안된 방법이 장갑 장치 시스템에도 잘 동작함을 보이기 위해서, 본 논문은 장갑 장치에 기초한 연속적인 한글 수화 손동작 인식 시스템도 소개하고 있다. 장갑 장치에 기초한 시스템은 비전에 기초한 시스템에 비해서 더 쉽게 손 데이터를 측정할 수 있기에, 더 많은 수화 단어를 인식할 수가 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 04014
형태사항 ix, 126b p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김정배
지도교수의 영문표기 : Zeung-Nam Bien
지도교수의 한글표기 : 변증남
수록잡지명 : "Recognition of continuous korean sign language using gesture tension model and soft computing technique". IEICE transaction on information and systems,(2004)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 101-111
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서