서지주요정보
Feature-based weighting method for type classification with deep learning = 딥 러닝 기반 개체 유형 분류를 위한 단어 자질 가중치 적용 방법
서명 / 저자 Feature-based weighting method for type classification with deep learning = 딥 러닝 기반 개체 유형 분류를 위한 단어 자질 가중치 적용 방법 / Bugeun Kim.
저자명 Kim, Bugeun ; 김부근
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029109

소장위치/청구기호

학술문화관(문화관) 보존서고

MWST 16001

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Question Answering (QA) is a task aimed at providing correct answers for a natural language question. Especially, answering an open-domain question requires knowledge of a sufficiently wide coverage. The Web is a possible information source with a wide coverage, but it requires natural language processing to understand the meaning of the text. Type classification is to support such a task by assigning a predefined type to an entity mention in the text. There are two kinds of type classification methods. One is a traditional feature-based classifier, which uses various features from mention words and their context. The other is using a recent word embedding model, which shows comparable performance without any explicit features, because it learns deeper semantics of words than traditional features. However, tuning word embeddings on given corpora requires a large amount of data. While feature-based models can obtain a significant amount of information about the context words even with small training corpora, they suffer from shallow semantics. To use the benefits of both of the methods, we propose a word embedding model with a term weighting scheme. We design a scoring perceptron method to scale word embedding by its weight before they are manipulated by the type classification model. This has the effect of term weighting without loss of the meaning, which is contained in the word embedding. We use 11 features to measure weight of a context word, based on traditional feature-based classifiers. Our experiment compares the difference among the features in loose micro R-precision. In order to verify such difference, we classify features into eight groups based on their expected functions. We train these models with five small data sets, whose size vary between 1, 000 and 25,000. We find that the data set with the size less than 10,000 syntactic features are good at a decelerating performance drop caused by small training data. This shows that those features support the system by giving a higher weight to significant words. In addition, we investigate four important points that require attention when we design features for small training examples.

질의응답 기술은 인간이 제기한 자연어 질문에 가장 정확한 정답을 제공하기 위해 노력한다. 특히, 열린 분야 질의응답을 위해서는 광범위한 지식이 필요하다. 이러한 지식의 기초자료로 웹이 가장 적합하지만, 웹 텍스트의 의미를 해석하기 위해서는 언어 처리 과정이 필요하다. 개체 언급의 유형을 분류하는 기술은 주어진 개체의 의미 유형을 결정하는 기술로, 이러한 언어 처리 과정을 지원한다. 유형 분류 기술에는 크게 2가지 종류가 있다. 하나는 전통적인 방식의 단어 자질 기반 분류기로, 문맥과 개체 언급에서 각 자질을 추출하여 학습한다. 다른 하나는 단어 표현(Word embedding)을 활용한 기술로, 명시적인 자질 없이도 전통적 방식의 분류기와 대등한 성능을 보인다. 그러나, 최적의 성능을 위해서는 다량의 훈련 데이터를 사용해 매개 변수들을 조정해야 한다. 반면에, 자질 기반 분류기는 작은 훈련 집합에서도 어떤 자질이 단어의 중요성을 반영하는지 학습할 수 있지만, 깊은 수준의 의미를 반영하지 못한다. 양측의 장점을 모두 활용하기 위해, 우리는 자질을 통해 단어의 중요도를 반영하는 혼합 모형을 제안하고자 한다. 우리는 단층 신경망(Perceptron)을 사용하여 단어 표현을 각 단어의 중요도 만큼 확대 또는 축소하고, 이를 사용해 개체 유형을 분류하는 모형을 제안한다. 이 방법은 단어 표현이 내포하는 의미가 손상되지 않으면서 단어의 가중치를 반영하는 효과가 있다. 우리는 문맥 단어의 가중치를 계산하기 위하여, 전통적 분류기에 기반한 11개의 자질을 사용한다. 실험을 위해서, 우리는 각 자질의 성능을 loose micro R-precision으로 비교한다. 자질의 성능 차이를 확인하기 위해, 우리는 자질을 그 예상 작용을 토대로 8개의 집단으로 묶었다. 이 모형들은 1천개에서 2만 5천개 사이의 다양한 크기를 가진 5개 집합으로 훈련된다. 이 실험을 통해, 1만개 이하의 집합에서 구문 구조에 기반한 자질이, 작은 훈련 집합이 야기한 성능 하락을 감속함을 확인한다. 또한, 작은 훈련 집합에서 자질을 고안할 때 주의해야 할 4가지 사항에 대해 논의한다.

서지기타정보

서지기타정보
청구기호 {MWST 16001
형태사항 v, 44 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김부근
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
학위논문 학위논문(석사) - 한국과학기술원 : 웹사이언스대학원,
서지주기 References : p. 39-41
주제 Neural Network
Type Classification
Term Weighting
Deep Learing
Word Embedding
인공신경망
개체 유형 분류
단어 자질 가중치
딥 러닝
단어 표현
QR CODE qr code