서지주요정보
Hangul keyword spotting using dynamically synthesized pseudo 2D hidden markov models = 실시간 합성 의사 2차원 은닉 마르코프 모델을 이용한 한글 핵심어 검출
서명 / 저자 Hangul keyword spotting using dynamically synthesized pseudo 2D hidden markov models = 실시간 합성 의사 2차원 은닉 마르코프 모델을 이용한 한글 핵심어 검출 / Beom-Joon Cho.
저자명 Cho, Beom-Joon ; 조범준
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015563

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 04003

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Latin text runs linearly left to right and are written or printed as such. But Hangul characters consist of two or three graphemes and are composed nonlinearly inside a 2D rectangular box according to the Hangul character composition rule. Hangul character set is too big for computer modeling as in conventional methods. Therefore this thesis proposes a novel method of effective character modeling while reducing the number of unit model. The key idea of the proposed method is to synthesize character images in real time and convert to efficient statistical models or HMMs. The traditional methods of HMM, although highly successful in 1-D time series analysis, have not yet been successfully extended to 2-D image analysis while fully exploiting the hierarchical design and extension of HMM networks for complex structured signals. Instead of the traditional off-line training method of the Baum-Welch algorithm, we propose a new method of creating in real time the word or composite character HMMs for 2-D word/character patterns. The proposed method goes as follows: first, we manually prepared a set of location-preserving grapheme image samples for each grapheme and obtained their average, a grapheme template. Then by superposing two or three appropriate grapheme templates, we compose a character image template. Following this, we convert this character template to a P2DHMM in a systematic way. The idea of character composition is not new, but the application to strictly 2-D model design is. It is especially true in 2-D HMM framework. Another feature of the proposed method is the conversion of the grayscale template into a P2DHMM, which is theoretically correct in the sense of maximum likelihood estimation. An additional noteworthy feature is model size reduction by noting the information redundancy in the templates; successive HMM states are merged based on the similarity between their output PDs. The resulting models are often much smaller than the original and thus speed up the spotting task, and sometimes, improve the performance. Although the resulting models are not optimal, the proposed method has much greater advantage in regard to memory usage and training difficulty. In a series of experiments in character and word spotting, the system recorded 86.3% in the single-keyword spotting task for some choice of merge threshold set. For multiple keyword spotting task with 2.5 words on average, the performance reached 83.8% correct hits without any language model. The series of experimental results showed that the proposed method is effective for real time keyword spotting for machine print documents. This result may be applied to content-based optical document retrieval.

라틴어 텍스트는 왼쪽에서 오른쪽으로 흐르면서 글자가 1차원 공간에서 단어로, 문장으로 조합된다. 그러나 한글은 글자의 제자 원리에 따라 둘 또는 세 개의 자모가 2차원 사각형 영역 안에 비선형적으로 배치, 결합된다. 기존의 방법과 같이 한글을 글자 단위로 모델링 하기에는 글자가 너무 많다. 따라서 본 논문에서는 단위 모델의 수를 줄이고 효율적으로 모델링하는 방법을 제안한다. 제안 방법의 핵심 아이디어는 한글의 제자 원리에 따라 형성되는 글자의 영상을 실시간 합성한 다음 이를 Pseudo 2D HMM으로 변환하는 방법이다. 은닉 마르코프 모델은 순차적으로 발생하는 일차원 입력신호의 시간적 변형을 모델링하는데 뛰어난 모델로 널리 알려져 있다. 그러나 인쇄체 한글은 2차원 패턴으로 이와 같은 일차원 은닉마르코프 모델을 사용하는 것은 유연성이 떨어지기 때문에 한글의 2차원 패턴을 효율적으로 모델링 하기 위하여 Pseudo 2D HMM을 채택하였다. Pseudo 2D HMM은 일차원 은닉 마르코프 모델을 2차원 은닉마르코프 모델로 확장시킨 것이며 은닉 마르코프(HMM) 상태(Supper-state) 내에 또 다른 은닉 마르코프(Sub-state) 상태를 가지고 있다. Sub-state HMM은 수직 프레임내의 벡터를 모델링하고, Super-state HMM은 수직 프레임 벡터의 수평 열을 모델링한다. 이것은 2차원 패턴을 유연성 있게 표현할 수 있고, 수직과 수평 변위에도 유연성을 가지고 있다. 글자의 영상을 실시간 적으로 합성하여 의사 2차원 은닉 마르코프 모델을 이용하여 한글의 핵심어를 검출하는 방법은 다음과 같다. 첫째, 한글은 자소의 위치 정보에 따라 6형식으로 분류한다. 자소 이미지의 각 픽셀의 평균 확률을 구한다. 둘째, 같은 위치(i,j)의 초성(i,j), 중성(i,j), 종성(i,j)의 자소 이미지 중에서 가장 큰 픽셀의 확률값을 취하여 글자 이미지의 확률값으로 한다. 이렇게 해서 실시간 적으로 글자 이미지를 생성한다. 셋째, 생성된 글자 이미지를 P2DHMM으로 변환한다. 이의 변환 방법은 글자의 형식에 맞는 사각형 비트맵에서 픽셀로 구성되어 있는 하나의 열 프레임에 하나의 노드를 대입하고, 모든 열이 연결되도록 한다. 이를 Super-state 라고 한다. 또한 Sub-state는 수직프레임에서 출력확률을 갖는 각 픽셀들을 말하며 이의 상태들을 연결한다. 넷째, 핵심 글자 모델과 여백 모델을 연결하여 핵심어 모델을 생성하고, 핵심 글자가 아닌 모든 글자들을 한글의 구조적 특성에 따라 정확도를 높이기 위하여 6개로 분류하고 모델을 생성하여 이를 필러(filler) 모델이라 한다. 연속적인 글자 사이의 여백을 위한 모델을 여백(white space) 모델이라 한다. 다섯째, 변환된 P2DHMM에서 정보의 중복성을 줄이고 크기 변위에 유연성을 갖도록 비슷한 상태들을 합병한다. Super-state의 합병은 두 상태의 거리의 멱승의 합으로 계산하여 그 값이 임계값보다 작으면 합병한다. Sub-state의 합병은 상태들의 확률값의 차가 임계값보다 작으면 합병한다. 여섯째, 핵심어 검출 네트워크는 P2DHMM을 기반으로 한 환형 검출 네트워크로 핵심어, 필러(filler), 여백(white space)의 스트링을 모델링한다. 여기서 키 모델과 키가 아닌 모델이 경쟁하여 확률값이 높은 패턴이 검출된다. 본 방법에 따라 실시간 적으로 합성된 모델과 필러 모델, 여백 모델을 문서 영상의 글자 영역에서 핵심어를 검출하는데 적용하였다. 실험결과 최소한의 설계 변수 조정으로도 오검출, 미검출률이 낮고 핵심어가 1개일 때 언어 모델 없이 한글 86.3%의 검출 성능을 보였으며, 핵심어가 2.5개일 때는 언어 모델 없이 한글 83,8%의 검출 성능을 보였다. 따라서 제안된 방법이 인쇄 문자 패턴의 실시간 모델링 및 핵심어 검출에 효과가 있음을 보였다. 본 연구 결과는 내용 기반의 광학 문서 검색 등에 활용할 수 있다.

서지기타정보

서지기타정보
청구기호 {DCS 04003
형태사항 x, 83 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조범준
지도교수의 영문표기 : Jin-Hyung Kim
지도교수의 한글표기 : 김진형
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 80-83
주제 PSEUDO 2D HMM
CHARACTER MODELLING
KEYWORD SPOTTING
DOCUMENT RETRIEVAL
의사 2차원 은닉 마르코프 모델
문자 모델링
핵심어 검출
문서 검색
QR CODE qr code