서지주요정보
Connected word recognition using phoneme-like units = 유사음소를 이용한 연결 단어 인식
서명 / 저자 Connected word recognition using phoneme-like units = 유사음소를 이용한 연결 단어 인식 / Hyung-Je Cho.
발행사항 [서울 : 한국과학기술원, 1986].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

4103501

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 8607

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation work, connected word recognition based on phoneme-like unit segmentation has been studied. Specifically, characteristics of connected words spoken in natural mode have been studied, and efficient methods of connected word recognition have been investigated. The vocabulary we have used is 10 Korean digits. Strings of these digits are recognized in a connected word recognition system. We propose to use a number of algorithms that have been devised to alleviate several problems in connected word recognition. First, we propose a new method for the reduction of computational complexity in a connected word recognition system that uses dynamic programming. Conventional complexity reduction algorithms aim to reduce just the computational complexity, and thus do not provide any further information for dynamic programming that follows. To alleviate this problem, an algorithm that combines data reduction and word hypothesis is proposed. The input feature vectors are first labeled by a codebook that consists of spectral patterns corresponding to phoneme-like units and then partitioned into a sequence of phoneme-like segments. With the sequence of segments, a set of lexical access constraints, such as candidate digits and the maximum number of digits for a string, are obtained using a given state transition network. At the same time, data reduction is done by compressing or expanding linearly the segment according to a preselected rate. It is shown that, with the reduced input feature stream, lexical constraints and reference word templates which have already been reduced by the same procedure as for the input stream, the computational burden of dynamic programming can be reduced to one tenth, while providing accuracy comparable to that without additional processing for dynamic programming. Second, to compensate for the effect resulting from the heavy dependence on frame duration in dynamic programming, we investigate a rule-based connected word recognition system that uses only a sequence of segments. The preprocessed sequence of segments is fed through a recognizer in which a state transition network or a Markov chain and a set of unique segment patterns are prepared. The recognizer finds first a few groups of unique patterns by comparing the sequence of segments with a set of unique segment patterns registered in advance. The remaining segments not included in the groups are next fed through a state transition network and are given scores by the Viterbi algorithm. Finally, the recognizer decides which words have been spoken by applying a set of heuristic rules learned in advance manually. According to the experimental results, the rule-based system can yield accuracy up to about 80 percent even if one uses only the sequence of phoneme-like segments and a set of simple heuristic rules. Lastly, we propose a speaker adaptation method for connected word recognition. This method combines the conventional dynamic programming approach with the phoneme -like unit segmentation method. Here we use a reference set trained initially to only a single reference speaker and composed of reference word templates and a reference codebook. With the templates and codebook, the primary recognizer based on dynamic programming extracts information such as word boundaries and estimated words from the input feature stream of a new speaker. Then, the secondary recognizer based on the phoneme-like unit segmentation estimates a sequence of words and their levels of confidence. When the resulting estimated words from the two recognizers are identical, the corresponding word template and spectral patterns in the codebook are updated in proportion to the level of confidence. In addition, the frame durations of the reference word templates are updated according to the differences in duration between the input word and the reference word template. As time goes on, the recognition system gets to have the reference word templates and codebook trained to the new speaker. Experimental results show that the accuracy is improved by 4 to 12 percent, and that the updated reference templates and codebook yield accuracy comparable to that obtained from the system being used by the reference speaker.

본 논문에서는 유사음소 분할을 기초로 한 연결 단어 인식에관하여 연구하였다. 특히, 자연스럽게 발음된 연결 단어의 특성과 효율적인 연결 단어인식 방법이 연구되었다. 사용된 어휘는 10개의 한국어-숫자이며, 이 숫자로 된 string이 연결 단어 인식 시스템에 의해 인식되었다. 본 논문에서는 연결 단어 인식에 대한 여러가지 문제점을 해결하기 위해 몇가지 algorithm이 제안되었다. 첫째로, dynamic programming을 사용한 연결 단어 인식 시스템의 계산의 복잡성을 줄이기 위한 새로운 방법이 제안되었다. 계산상의 복잡성을 줄이기 위한 통상적인 방법은 계산 그자체만을 감소시키려 할뿐, 뒤따르는 dynamic programming을 위한 추가정보를 제공하지 않는다. 이 문제를 해결하기 위해 data 감축과 단어 가정 (word hypothesis)을 결합시킨 한 방법이 제안되었다. 먼저 입력 feature 빅터들이, 유사음소에 대응되는 spectral pattern으로 구성된 codebook에 의해 분류된 후, 유사 음소 segment로 된 sequence로 분할된다. 이 sequence로, 주어진 state transition network를 이용하여, 한string에 대한 candidate 숫자들과 최대 숫자 수에 관한, 어휘를 탐색할 때의 일련의 제한조건을 얻는다. 동시에, 미리 선택된 비율로 segment를 선형적으로 축소하거나 늘임으로써 data 감축이 행해진다. 이렇게 하여 감축된 입력 feature stream과 제한조건, 또 입력 stream과 마찬가지 방법에 의해 이미 감축된 reference word template들로, dynamic programming의 계산상의 부담이 10분의 1로 줄어들 수 있다. 반면에 이러한 추가 처리과정이 없을 때에 비해 정확도는 유사하게 유지된다. 둘째로, dynamic programming에서 단어의 지속기간에 심하게 영향을 받는 현상을 보상하기 위해 segment의 sequence만을 이용한 rulebased 연결 단어 인식 시스템이 연구되었다. 사전 처리과정을 거친 segment로 된 sequence를 state transition network 또는 Markov chain과 독특한 segment pattern들이 만들어져 있는 recognizer에 인가한다. Recognizer는 먼저 segment의 sequence를 미리 등록되어 있는 독특한 segment pattern들과 비교하여 소수 group의 독특한 pattern 들을 찾는다. 이러한 group에 포함되지 않은 나머지 segment들은 state transition network을 거쳐 Viterbi algorithm에 의해 점수가 주어진다. 마지막으로, recognizer는 미리 작성된 heuristic rule들을 적용하여 어떤 단어가 발음되었는가를 결정한다. 실험결과, rule-based 시스템은 단지 유사음소 segment로 된 sequence와 간단한 heuristic rule 들만을 이용해도 80\% 정도의 정확도를 보일 수 있었다. 마지막으로 연결단어 인식에 대한 화자 적응 방법 (speaker adaptation method)이 제안되었다. 이것은 일반적인 dynamic programming에 의한 접근방식과 유사 음소 분할 방법을 결합시킨 것으로, 초기에 단 하나의 화자(speaker)에게만 맞추어져 있는 reference word template 들과 reference codebook을 사용한다. 이 templates들과 codebook 으로 dynamic programming을 근거로 한 제1 recognizer는 새로운 화자의 입력 feature stream으로부터 단어간의 경계와 추정된 단어들에 관한 정보를 뽑아낸다. 이때 유사 음소 분할방법을 이용하는 제2 recognizer는 단어의 sequence와 그 신뢰도를 추정한다. 두 recognizer로부터의 추정 단어가 같으면 대응되는 word template과 codebook 속의 spectral pattern들은 그 신뢰도에 비례하여 재초정(update) 된다. 또한, reference word templates의 지속 기간도 입력단어와 reference word template 간의 지속기간의 차이에 따라 재조정된다. 시간이 지남에 따라 인식 시스템은 새로운 화자에 맞추어진 reference word template들과 codebook을 갖게 된다. 실험 결과, 정확도는 4-12 퍼세트를 증가되었고 재조정된 reference template들과 codebook으로 본래의 reference speaker가 그 시스템을 사용하는 경우와 견줄만한 정확도를 보여주었다.

서지기타정보

서지기타정보
청구기호 {DEE 8607
형태사항 ix, 170 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조형제
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 157-169
주제 Word recognition.
Dynamic programming.
Phonemics.
Markov 과정. --과학기술용어시소러스
음성 인식. --과학기술용어시소러스
단어. --과학기술용어시소러스
음소. --과학기술용어시소러스
화자 인식. --과학기술용어시소러스
Markov processes.
Speech perception.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서