서지주요정보
Utilization of DBpedia mappings in cross language wikipedia infobox completion = 디피피디아 매핑을 활용한 위키피디아 교차언어 인포박스 완성법
서명 / 저자 Utilization of DBpedia mappings in cross language wikipedia infobox completion = 디피피디아 매핑을 활용한 위키피디아 교차언어 인포박스 완성법 / Megawati.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030154

소장위치/청구기호

학술문화관(문화관) 보존서고

MKSE 16018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Wikipedia plays an important role in the web as one of the biggest knowledge source due to its large coverage of information that came from various domains. As for today, Wikipedia covers articles from 282 different languages with more than 5 million articles and the number keep expanding. Each language version of Wikipedia covers different range of articles completeness and is maintained independently by the community. Consequently, the problem of missing information among cross-language Wikipedia articles has emerged. Infobox is a small box, which is located inside a Wikipedia page and contains summary of the topic in the semi-structured manner. Since, infoboxes are often useful for Wikipedia data extraction, it is important to maintain their information quality as well. Several studies have been done in alignment and generation of new entries for Wikipedia infoboxes. [5] developed an information extractor that extracts all possible infobox attribute-value pairs from Wikipedia text by using CRF and generate new infoboxes from the result. A different approach was used by [4] who built a binary classifier to predict the similarity of cross language attribute pairs to align two infoboxes. Other infobox alignment approach was discussed in [15] and [16]. We proposed an approach to fix information gap in tbetween cross language Wikipedia articles by utilizing the existing DBpeda mappings. Our goal was to add new information from the infoboxes of Korean Wikipedia articles to their corresponding English Wikipedia articles. To determine attribute-value pairs that we should generate, we tried to find two attributes which are likely to have similar meaning by looking at their mapped DBpedia property. In addition, we also used instance-based attribute alignment method [2] to expand our aligned attribute list. The results showed that we could expand up to 38% of the existing Wikipedia attribute-value pairs from our datasets with 61% of accuracy as well as automatically creating new Wikipedia-DBpedia mappings.

위키피디아가 웹의 제일 큰 지식 소스 중 하나로 중요한 역할을 갖게 된다. 다양한 도메인에서 여러가지 정보를 모이고 사람들이 웹사이트를 통해서 아무 정보를 쉽게 볼 수 있기 때문이다. 게다가, 현제는 위키피디아의 정보는 282 개 언어를 커버하고 페이지수가 5백만 개 이상으로 구성되어 있다. 그러나, 위키피디아의 관리자들이 그 어마어마한 페이지들을 독립적으로 관리하기 때문에 정보 불완전하고 비일관성 문제가 나타나게 된다. 그런 문제를 해결하기 위해 여러 연구를 실시하게 됐다. 위키피디아 글을 비교하는 것도 물론 있지만 대부분은 위키피디아 Infobox에 있는 정보에 집중한다. Infobox의 있는 정보는 구성이 더 잘 되어서 더 쉽게 추출하고비교할 수 있기 때문이다. [5] 는 위키피디아 글에서 가능한 Infobox의 attribute-value 페어를 모두 추출해서 그 중에 한 주제에 대한 관련성은 가장 높은 페어들을 CRF Classifier로 예측하는 Kylin이라는 tool을 개발을 했다. 그대음에 그 attribute-value 페어를 모여서 새로운 Infobox을 생성했다. 다른 연구는 [4] 다른 언어의 attribute-value 페어 일차하는지 예측할 수 있는 binary classifier을 이용했다. 또, [15]와 [16]에서 Infobox alignment에대한 다른 방식으로 연구를 했다. 이 논문은 다른 언어 위키피디아 정보를 일치 시키기 위해 다른 연구와 달리 디비피디아 메핑을 활용하는 새로운 방식으로 연구를 했다.디피디아 메핑이라는 것은 위키피디아 Infobox의 부분 (template, attribute, value)을 추출한 정보가 디비피디아 온톨로지의 class과 property로 메핑된 것이다. 디비피디아 메핑에서 여러 언어 디비피디아 버전의 메핑을 커버되어 있다. 그를 통해서 일치한 attribute들을 알아낼 수 있어서 부족한 부분을 추가히기 위해 generation 과정에서 사전처럼 역할을 갖게 된다. 또, [2]의 instance-based alignment 방법과 같이 이용했다. 영어 Infobox과 한국어 Infobox를 비교해서 영어 Infobox의 부족한 부분을 한국어 Infobox에서 새로운 attribute-value 페어들을 생성했다. 실험결과에 따라서 기존의 attribute-value 페어들을 38%까지 확장할 수 있고 새로운 페어의 accuracy는61%으로 나타나다.

서지기타정보

서지기타정보
청구기호 {MKSE 16018
형태사항 vii, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 메가와티
지도교수의 영문표기 : Mun Yong Yi
지도교수의 한글표기 : 이문용
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 31-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서