The stochastic language model provides linguistic likelihoods of expressions that can be used in resolving ambiguities in geometric evidences.
This can be especially beneficial in handwritten Hangul recognition, because Hangul characters have highly similar shapes due to the compositional nature.
For modeling of Korean language, morpheme-based models have been preferred due to her agglutinative characteristics. These models basically assume that the input texts are syntactically well-formed. However, this assumption holds only in limited domains. Also, they demand morphologically analyzed corpus for training, which are expensive to use because the corpus needs to be processed by human experts.
We present a novel language model that can be trained from a raw corpus. Without relying on the linguistic knowledge, we train the lexicon and their associated probabilities out of raw texts based on statistical measures. Experiments show that the proposed model effectively captures the variable-length regularities in Korean language even though no linguistic knowledge was utilized explicitly during training. In recognition experiments, both the character recognition rates and the word recognition rates show significant improvment by employing the proposed language model.
통계적 언어 모델은 특정 표현이 얼마나 일상적으로 사용되는가를 가늠하는데 사용되는 모델이다.
한글의 낱자들은 만 개를 넘는 가짓 수를 가지고 있을 뿐 아니라, 단순한 모양의 자모들의 조합으로 이루어져 있기 때문에 서로 모양이 흡사하다.
따라서, 컴퓨터에게 있어, 필기된 문자의 경우 특히, 그 모양 만으로 글자를 판독하기는 매우 어렵다.
이 같은 기하학적 모호성을 해결하는 데에는 통계적 언어 모델이 제공하는 언어적 문맥 정보가 유용하게 사용될 수 있다.
한국어의 통계적 모델을 구축하는데에는 주로 형태소를 기반으로 하는 모델들이 사용되어져 왔다.
기본적으로 이들 모델들은 인식될 문장이 문법적으로 올바른 형태를 갖는다고 가정한다.
그러나, 실제의 경우 이러한 가정은 오직 제한된 분야에서만 성립한다.
또한, 이들 모델들을 훈련시키기 위해서는 형태소 분석이 이루어진 말뭉치를 사용하여야 한다.
그러나, 이들 말뭉치는 전문가들의 수작업을 통하여 만들어지기 때문에, 이들을 빈번하게 재구축하여 언어 모델을 주기적으로 갱신하기에는 어려움이 따른다.
본 논문에서는 원시 말뭉치로 부터 한국어의 통계적 모델을 구축하는 새로운 방법을 제안한다.
제안된 모델은 오직 통계적 기준만을 사용하여 원시 말뭉치로 부터 어휘 사전과 그에 연관된 확률 분포를 학습한다.
실험 결과, 한국어의 특성에 대한 언어적 지식이 훈련 과정에서 제공되지 않았음에도 불구하고, 제안된 모델이 한국어에서 빈번히 사용되는 다양한 기본 표현들을 효과적으로 체득하는 것을 확인할 수 있었다.
또한, 필기체 한글에 대한 인식 실험 결과 제안된 모델을 적용함으로써 낱자 단위 및 어절 단위 인식률이 일관되게 향상됨을 관측할 수 있었다.