서지주요정보
A study on measurement of similarity for interlinking chinese, japanese and korean resources = 한중일 언어자원 연결을 위한 유사도 측정 연구
서명 / 저자 A study on measurement of similarity for interlinking chinese, japanese and korean resources = 한중일 언어자원 연결을 위한 유사도 측정 연구 / Sae-Mi Jang.
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026579

소장위치/청구기호

학술문화관(문화관) 보존서고

MKSE 14004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Linked Open Data (LOD) is an international endeavor to interlink structured data on the Web and create the Web of Data on a global level. Linking data can be achieved by understanding semantic relationships between data and building explicit links for them. One serious challenge that deters this worldwide initiative is the issue of multilinguality. The current LOD provides limited support for non-Western data, in particular for Asian data. In this study, we propose a novel method with which Chinese, Japanese, and Korean (CJK) resources can be better matched and connected. The three countries share Chinese characters even though Japan and Korea have their own language. Utilizing the Unihan database, which covers more than 45,000 characters commonly used for the three countries, we show that the proposed method outperforms the traditional method based on string matching in finding similar characters and words among the three countries. The results represent the first step towards overcoming the multilingual barrier in semantically interlinking LOD resources across the three countries.

링크드 오픈 데이터(LOD)는 웹 상에 존재하는 구조화된 데이터들을 식별하여 상호 연결시켜, 글로벌 수준의 웹을 만드는 것을 의미한다. 데이터들을 상호 연결시키기 위해서는 데이터 간의 의미관계를 파악하여야 한다. 글로벌 수준에서 링크드 오픈 데이터를 구축하기 위한 중요한 문제 중 하나는 다국어 문제이다. 현재 링크드 오픈 데이터는 서양언어위주로 발달되어있어 비 서양권 언어자원, 특히 아시아 언어자원을 연결하기에 어려움이 있다. 본 연구는 위와 같은 문제점을 해결하기 위해 한중일 언어자원을 연결할 수 있는 새로운 방법을 제안하였다. 세나라는 문자체계는 다르지만 한자를 공통적으로 사용하고 있으며, 유니한 데이터 베이스를 통하여 한중일 에서 사용하는 4만5천자 이상의 한자와 관련된 정보를 이용할 수 있다. 본 연구에서는 유니한 데이터베이스에서 제공하는 한자정보를 이용하여 한중일 언어자원 연결을 위한 유사도 측정 방법을 제안하고, 제안하는 방법에 대해 한중일 공통 사용한자와 단어를 이용하여 평가를 수행하였다. 연구의 결과는 기존의 단어 유사도 측정방법인 Levenshtein distance와 비교하여 precision, recall, f-score의 평균이 전반적으로 향상된 결과를 보여주었으며, 기존의 단어 유사도 측정방법과 비교하여 한중일 언어자원의 특성을 반영하여 링크드 오픈 데이터의 다국어 문제를 해결할 수 있음을 입증하였다.

서지기타정보

서지기타정보
청구기호 {MKSE 14004
형태사항 vi, 76 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장새미
지도교수의 영문표기 : Mun-Yong Yi
지도교수의 한글표기 : 이문용
Including Appendix : 1, Experiment 1 dataset. - 2, Experiment 2 dataset.
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학과,
서지주기 References : p. 36-38
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서