서지주요정보
Applying morphological segmentation to machine translation of low-resource and morphologically complex languages : (The) case of English-Tigrinya = 저 자원 및 형태 학적으로 복잡한 언어의 기계 번역에 형태 학적 세분화 적용 : 영어-티그리냐의 경우
서명 / 저자 Applying morphological segmentation to machine translation of low-resource and morphologically complex languages : (The) case of English-Tigrinya = 저 자원 및 형태 학적으로 복잡한 언어의 기계 번역에 형태 학적 세분화 적용 : 영어-티그리냐의 경우 / Gaim Gebre Fitsum.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031469

소장위치/청구기호

학술문화관(문화관) 보존서고

MITP 17001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Machine Translation (MT) has seen substantial advances in recent years, but it remains unexplored and an ongoing challenge for most language pairs. In this thesis, we present the development of a Statistical Machine Translation (SMT) between English and a lesser-known Semitic language, Tigrinya. To the best of our knowledge, this is the first study of machine translation involving the Tigrinya language. Two of the most important factors that affect the performance of SMT systems for a given language pair are: (1) the volume of parallel data available, and (2) the language difference between the pair. In this regard, English and Tigrinya make a particularly difficult pair for the task of SMT. The English language is deeply studied and has a wealth of resources, whereas Tigrinya is much less studied with severely limited computational resources. What is more, the two languages differ markedly in syntax and morphology, particularly in the word structure. Tigrinya is an agglutinative language with a highly derivational and inflectional morphology that proliferates vocabulary and necessitates sub-word translation. Regardless of the salient differences in the making of a word among natural languages, the standard SMT approaches treat surface words as the smallest unit of translation. These techniques work fairly well for languages with simple morphology and relatively small vocabulary such as English. However, they perform suboptimal when languages with rich morphology and huge vocabulary are involved, owing it to poor phrase alignment, data sparsity, and high rate of out-of-vocabulary words. In this empirical study, we build the necessary corpora from scratch and study the effects of both rule-based and unsupervised morphological segmentation of Tigrinya words as remedial measures. Moreover, we augment the system with additional bilingual lexicon to ameliorate the out-of-vocabulary problem. To this end, we have achieved cumulative BLEU scores of 23.3 and 27.14 points for English into Tigrinya, and Tigrinya into English translations, respectively. In the end, the system is published online for public use and the dataset, which comprises 30.6k sentences of parallel corpus and 913k sentences of monolingual corpus, is also made publicly available for researchers.

기계 번역 (MT)은 최근 몇 년 동안 상당한 진보를 보였지만, 대부분의 언어 쌍에 대해서는 현재로서 진행된 연구가 많지 않습니다. 이 논문에서는 영어와 덜 알려진 셈어인 티그리니야 사이에 통계적 기계 번역 (SMT)을 개발합니다. 우리가 아는 한, 본 연구는 티그리니야와 관련된 기계 번역의 첫 번째 연구입니다. 주어진 언어 쌍에 대한 SMT 시스템의 성능에 영향을 미치는 가장 중요한 두 요소는 (1) 사용 가능한 병렬 데이터의 양과 (2) 언어 쌍 사이의 언어 차이입니다. 그러므로 영어와 티그리니야는 SMT를 실행하는 과정에서 특히 어려운 한 쌍을 만듭니다. 영어는 깊이 연구되고 풍부한 자원을 보유하고 있는 반면, 티그리니야는 한정된 연구로 인해 데이터와 현존하는 프로그램이 극도로 제한되어 있습니다. 두 언어는 문법과 형태학, 특히 단어 구조에서 현저하게 다릅니다. 티그리니야는 어휘를 증폭시키고 하위 단어 번역을 필요로 하는 유추 및 굴절 형태를 가진 교착어입니다. 자연어 중 '단어'라는 개념의 현저한 차이에 관계없이 표준 SMT는 지표 단어를 가장 작은 단위로 간주합니다. 이러한 기술은 간단한 형태와 영어와 같은 비교적 작은 어휘가 있는 언어에서 상당히 잘 작동합니다. 그러나 풍부한 형태와 거대한 어휘가 있는 언어는 어구의 어긋남, 데이터 희소성 및 어휘 밖의 단어의 빈도가 높기 때문에 SMT가 작동하는 과정에서 한계가 있습니다. 이 연구에서 우리는 처음부터 필요한 말뭉치를 구축하고 어구 정렬, 데이터 희소성 및 어휘 밖의 문제를 개선하기 위해 형태학적 구분과 추가 이중 언어 사전을 실험합니다. 따라서, 이 연구를 규칙 기반 및 비감독형 형태 분류로 나누어 진행하였습니다. 영어-티그리니야 번역, 티그리니야-영어 번역은 각각 23.3 점과 27.14 점의 누적 BLEU 점수를 받았습니다. 이 시스템은 일반인 용으로 온라인에 게시되었습니다. 30600 문장의 병렬 자료와 913000 문장의 단일 언어 자료로 구성된 데이터 세트도 일반인에게 공개됐습니다.

서지기타정보

서지기타정보
청구기호 {MITP 17001
형태사항 vi, 67 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 핏섬
지도교수의 영문표기 : Jae Jeung Rho
지도교수의 한글표기 : 노재정
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 글로벌IT기술대학원프로그램,
서지주기 References: p. 55-58
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서