The implementation of speaker-independent voice recognition system for a large volume of vocabulary is inherently difficult, or may be impossible, unless some additional information besides accoustic data is used. To support the voice communication for the Decision Support Systems (DSS) and/or Expert Systems (ES) there need to cover the selection of menu, request for "help" and the explanation of terminologies. A good news however, is that most of the voice communication can be made using the terms displayed on the screen. To support the voice dialog of these situation, this thesis proposes a scheme which combines the data displayed on the screen, accoustic data and other informations about user characteristics or profiles. This approach is feasible because the displayed items on the screen can reduce the relevant candidates to recognize to the level of speaker independence. And also, user characteristic attributes such as sex, dialect and age, etc., can be used to split the large speech base so that unnecessary candidates or comparison should be reduced.
We designed the new architecture using these and automatic learning concepts for adaptation to specific user, tested the effectiveness of these user characteristic attributes in voice recognition by simulated experiments and evaluated the performance of our system with comparison to the previous research.
의사 결정 지원 체계 (DSS) 이나 전문가 시스템을 위한 대화 소통을, 음성 인식을 이용하여 구현 하는 것은 화면 상의 메뉴 선택 이나 도움말 요청, 용어 설명등에 유용하게 이용될 수 있다. 그러나, 대규모의 어휘를 실시간으로 커버할 수 있는 화자 독립 (Speaker Independent) 음성 인식 시스템을 마련하는 것은 음성 정보만으로는 근본적인 어려움이 존재한다. 본 논문에서는 이러한 문제점을 해결하기 위하여 음성 정보 뿐만 아니라 화면 정보, 사용자 특성 정보 등을 조합하여 실시간 음성 대화 시스템을 화자 독립으로 구현하기 위한 새로운 방법론을 제시하였다.
특히 성별, 방언, 나이 등과 같은 사용자 특성 정보는 대규모의 음성 자료중 관련 음성 정보만을 비교 후보로 사용하기 때문에 실시간의 구현과 음성 인식률의 향상에 효과적이다. 또한, 시스템의 특정 사용자에 대한 자동 학습과 적응의 개념을 적용하였고, 사용자 특성 정보가 음성 인식에 어느 정도 영향을 미치는가 시뮬레이션을 이용하여 그 유용성을 테스트하였으며, 본 논문에서 제기한 방법론과 기존 연구와의 성능을 비교하였다.