In this the work, a Korean phoneme segmentation algorithm has been studied. For a large vocabulary speech recognition system a sub-word unit must be introduced as the basic recognition unit. For preparing a large inventory of sub-word units, an automatic segmentation is preferable to manual segmentation as it substantially reduces the work associated with the generation of templates and gives more consistent results. In this thesis work, the phoneme is selected as a recognition unit.
All phonemes are segmented in two methods; vowel segmentation and template matching. In the vowel segmentation stage, a vowel is extracted from the input speech signal using energy, zero crossing rate (ZCR) and 4-band filter bank(FB) outputs. Also, a phoneme length from the statistics of the data base is asked as a constraint. And using vowel boundaries, input phoneme sequences and 17-band filter bank outputs, remaining phonemes are segmented. In the last method, we collect a reference template inventory comprising of the 56 Korean acoustic units. For most of the acoustic units, we use a single frame reference template. Exceptions are made for the diphthongs and the plosives which are represented by two single frame templates.
Computer simulation has been done to obtain the performance of the proposed Korean phoneme segmentation algorithm using 1160 word vocabularies. The vocabularies were spoken by one male speaker under an ordinary ambient condition.
The simulation result shows that boundary segmentation error rate is about 10.14%.
본 논문에서는 114 전화 번호 안내 인식 시스템을 구현하기 위한 전 단계로서 음성 입력으로부터 음소(phoneme)의 경계를 분리하는 algorithm에 대하여 연구하였다. 본 논문에서 사용된 음소분리 algorithm은 크게 2단계로 이루어져 있는데, 첫 번째는 입력음성을 4-band filter bank 출력, ZCR, total energy(0 ~ 5 khz)를 이용하여 모음을 분리하는 과정이고, 두번째는 분리된 모음구간을 이용하고, 입력음성의 1 frame(5 msec)을 FFT 하여 주파수 영역을 17개의 band로 분할, feature vector를 추출하고, TM(template matching)을 적용하여 자음(초성, 종성)을 분리해내는 과정이다.
이 음소분리 algorithm의 성능을 알아보기 위하여 computer simulation을 하였다. Data Base는 방음장치가 되어있지 않은 보통의 환경에서 공공기관, 학교, 은행, 도시, 국가, 구, 동 등의 명칭과 전화번호안내에 사용되는 각종 술어들을 포함한 1160개의 단어를 1명의 남성화자가 발음하여 구축하였다.
성능을 측정할 때 사용된 NO-ERROR의 기준은 모음과 비음, 유음은 6 frames 이하의 차이, 무성음은 2 ~ 4 frames 이하로 정하였다. 이 기준으로 1160개 단어 가운데 180여개를 선택하여 simulation을 하여 10.14% 의 error-rate를 얻었고, 한 단어에 대하여 11.2개의 phonemes가 사용되었다.