한국과학기술원 도서관

서지주요정보
개체명 인식 기반 질의 응답 URI spotting 연구 = Named entity-based URI spotting from natural language query
서명 / 저자	개체명 인식 기반 질의 응답 URI spotting 연구 = Named entity-based URI spotting from natural language query / 임경태.
발행사항	[대전 : 한국과학기술원, 2014].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8026406

소장위치/청구기호

학술문화관(문화관)B1층 보존서고

MWST 14001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper proposes that the progress state for DBpedia, which is the hub for Linked Data, can be divided into four different layers for Question Answering over Linked Data(QALD). By defining layers of DBpedia progress, we can answer the following questions: What the criteria of dividing layers are, what the requirements for being included in a layer are, and which layer each language belongs to. The division of the proposed four layers of DBpedia progress is carried out on two different viewpoints one is viewpoint of Natural Language Processing (NLP) for question answering system. It means that “what NLP component is necessary for this process” Another is viewpoint of DBpedia growth. The thesis will see the DBpedia growing layers and how it can be utilized. Furthermore, the analyzed results of QALD system, we can say that the DBpedia will have more layers. After evaluation of four layers by experiment which is URI spotting from QALD corpus, we show that DBpedia for 25 different languages can be classified based on our four layers definition. For each layer, we give examples of QALD questions that represent what kinds of data can be used to solve a question. Finally, based on the localization and development of the Korean DBpedia, we set a guideline of how to start building DBpedia for languages that are not supported yet, and how to further develop DBpedia for the previously classified 25 languages based on their current layer of progress.

본 논문은 Linked Data의 중심 역할을 하는 디비피디아의 발전 정도 및 활용 가능 범위를 4 단계 계층을 통해 제시한다. 우리는 디비피디아의 계층 정의를 통해 다음과 같은 질문에 답변을 제시한다. 레벨을 나누는 기준이 무엇인가?, 레벨에 포함되기 위한 요구사항은 무엇인가?, 각 디비피디아 언어가 어느 레벨에 속하는가?. 4단계의 계층 분류는 두 가지 다른 관점으로부터 연구 첫 번째로 자연어 처리 관점에서의 분류, 다시말해 이것은 QALD URI spotting 질의응답 실험으로부터 "어떠한 자연어 처리 과정을 통해 해당 질의가 해결되는가?" 두 번째로 디비피디아 데이터의 성장관점에서 "QALD 질의응답을 위해 어떠한 디비피디아 데이터를 가 필요한가"로 분류될 수 있다. 또한, 우리는 실험을 통해 QALD URI spotting을 통해 디비피디아에 더 많은 계층이 있을것이라는 점을 말할 수 있다. 우리는 25개 언어에 대한 디비피디아를 분석하여 앞서 정의한 4단계의 계층을 기준으로 분류를 시도 하였으며, 각 단계를 진행하면 어떤 QALD 질의 응답을 해결할 수 있고, 어느 분야에 사용할 수 있는지 구체적 사례와 어플리케이션을 소개한다. 그리고 디비피디아의 구축의 실례로서 한국어 디비피디아 구축 사례를 통해 실제 각 계층을 구축하는 방법을 소개함으로써 아직 구축하지 못한 언어엔 디비피디아를 구축하는 최선의 가이드를 제공하고 25개의 분석된 언어엔 다음 발전 방향을 제시할 좋은 기회가 될 것이다.

서지기타정보

서지기타정보
청구기호	{MWST 14001
형태사항	vi, 46 p. : 삽화 ; 30 cm
언어	한국어
일반주기	저자명의 영문표기 : Kyung-Tae Lim 지도교수의 한글표기 : 최기선 지도교수의 영문표기 : Key-Sun Choi
학위논문	학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공,
서지주기	참고문헌 : p. 44-46

QR CODE

책소개

전체보기

이 주제의 인기대출도서

표/그림

모든 표/그림 보기

QALD3 34번 문제 "How many films did Leonardo DiCaprio star in?'의 URI spotting 예제

QA-전통적인 질의 응답 시스템의 구조와 QALD-링크드 데이터를 활용한 질의 응답 시스템 의 차이점을 도식화한 그림

질의 "Give me all cars that are produced in Japan and European countries"에 대한 URI spotting 세부 과정으로 Spotting과 Resource Mapping의 예제

기존 QALD연구의 범위와 성능, 빨간 박스 안의 내용이 본 연구에서 목적으로 하는 URI spotting.

"Obama is the president of USA'에 대한 디비피디아 Spotlight예제

QALD 코퍼스 7번 질의 "Is the wife ofpresident Obama called Michelle?'에 대한 디비피디 아의 표현 구조 예제

"서울특별시' 아티클에 대한 4가지 다른 형태의 데이터예제. 왼쪽부터 위키피디아 로 데이터, HTML 형식으로 표현된 위키피디아 데이터, 디비피디아 triple 데이터, HTML형식으로 변환 디비피디아 데이터

시간 흐름에 따라 추가된 디비피디아 데이터와 연관된 링크드 데이터 그래프

"Who is the wife of Barack Obama?"의 자연어 처리 질의 분석 예제

QALD를 위한 자연어 처리 단계와 디비피디아 데이터의 연계 모형

URI spotting을 위한 알고리즘 분류

URI spotting의 첫 번째 단계인 스포팅의 프로시져와 예제

후보 확장 알고리즘에 따른 확장된 후보셋 예제

URI 선택 알고리즘을 위한 최적 후보선택 알고리즘과 스파클 체크 알고리즘

자연어 처리 분석과 QALD에 입각한 디비피디아 계층 구분

디비피디아 계층 1단계의 모형 범위

계층 1단계에서 해결 가능한 QALD질의 예제

계층 1단계의 매핑 되지 않은 프로퍼티와 3단계의 매핑 된 프로퍼티의 차이

계층 2, 3단계에서 해결 가능한 QALD질의 예제

실험에 사용된 QALD3 코퍼스의 구조와 예상 정답

QALD3 코퍼스를 이용한 질의응답 시스템의 성능평가와 최적의 성능의 연구 예제

디비피디아 계층별 실험을 위한 시스템 구조와 평가 시스템 구조

디비피디아 계층별 엔티티, 클래스, 프로퍼티, 전체에 대한 F1점수(최고 단계 자연어처리 사용시) - 계층 1단계(GE): generic extraction, 계층 2단계(MEC): Mapping-Based Extraction(Class) 계층 3단계(MEP): Mapping-Based Extractior(Property), 계층 4단계(IC): Interlinked web content

디비피디아 계층 1단계와 4단계의 엔티티, 클래스, 프로퍼티, 전체에 대한 F1점수 비교(최 고 단계 자연어처리 사용시) - 계층 1단계(GE): generic extraction, 계층 2단계(MEC): Mapping-Based Extraction(Class), 계층3단계(MEP):Mapping-Based Extraction(Property), 계층 4단계(IC):Interlinked web content

자연어 처리 단계에 따른 엔티티, 클래스, 프로퍼티, 전체에 대한 F1점수(최고 계층 디비피 디아 사용시) - 토크나이제이션(T). Tokenization, 품사태그(P): Part of Speech(POS), 렘마타이제이션 (L): Lemmatization, 개체명인식(N): Named Entity Recognition

자연어 처리 최저와 최고 단계에 따른 엔티티, 클래스, 프로퍼티, 전체에 대한 F1점수 비교 (최고 계층 디비피디아 사용시) - 토크나이제이션(T). Tokenization, 품사태그(P): Part ofSpeech(POS), 렘마타이제이션(L): Lemmatization, 개체명인식(N): Named Entity Recognition

자연어 처리와 디비피디아 계층에 따른 F1점수 비교 - 토크나이제이션(T): Tokenization, 품사태그(P): Part ofSpeech(POS), 렘마타이제이션(L), Lemmatization, 개체명인식(N): Named Entity Recognition

후보 확장 알고리즘 "Longest case insensitive matching"의 상태 변화에 따른 성능 향상 그 래프: N은 상수로 입력 단어 이 후의 확장할 토큰 갯수를 말한다. 그림 오른쪽의 예제는 실제 Longest case insensitive matching 알고리즘을 통해 풀 수있는 QALD 리소스 예제.

후보 확장 알고리즘 "WordNetSimilarity expansion"의 계층 변화에 따른 성능 향상 그래프: 그림의 Depth는 상수로 입력 단어의 워드넷 상의어 하의어 등의 확장을 위한 계층 깊이를 의미한다. 그림 오른쪽의 예제는 실제 이 알고리즘을 통해 단어 wife의 Depth를 1로 하였을때와 2로 하였을 때의 비교를 보여주는 예제.