서지주요정보
Theory and application of ultra high dimensional sparse representations for efficient and interpretable semantic search = 효율적이고 해석 가능한 의미 검색을 위한 초고차원 희소 표상의 이론과 응용
서명 / 저자 Theory and application of ultra high dimensional sparse representations for efficient and interpretable semantic search = 효율적이고 해석 가능한 의미 검색을 위한 초고차원 희소 표상의 이론과 응용 / Kyoung-Rok Jang.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038586

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 22001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep learning-based models generally use low-dimensional dense representations to express data samples. Although compact and powerful, it bears several shortcomings that make it unsuitable for tasks requiring processing a large number of samples (e.g., searching documents from web-scale corpus). More specifically, since each dimension of low-dimensional dense representations is highly entangled because of the limited number of dimensions available, it is susceptible to false matches when the number of samples is large. Also, all the dimensions must participate in representing and comparing samples regardless of each sample's characteristics, which is inefficient. Lastly, it is usually hard to interpret the entangled dimensions of dense representations. This thesis shows how high-dimensional sparse representations can cope with such problems in the field of natural language processing (NLP). We first explain the theoretical background and properties of high-dimensional sparse representations. Then we show how high-dimensionality and sparseness allow us to kill two birds, the performance and efficiency when applied to information retrieval (IR) and question answering (QA), the NLP tasks that require accurately finding relevant documents or answers from a vast amount of corpus with low latency. Finally, we introduce a method to interpret the model's outcome in quantitative and qualitative ways.

딥 러닝 모델은 일반적으로 저차원 밀집 표상 방식을 사용하여 데이터 표본을 표현한다. 이러한 표현 방식은 사용하기 용이하고 강력하지만, 많은 표본을 처리해야 하는 작업 (예: 웹 규모 문서 검색)에서는 단점을 보일 수 있다. 구체적으로, 저차원 밀집 표상의 각 차원 (자질)은 저차원성으로 인해 사용 가능한 차원의 수가 제한되어 있어 의미 얽힘의 정도가 크고, 때문에 표본 수가 많은 경우 표본 간 잘못된 의미 일치를 유발하기 쉽다. 또한 표본을 표현하고 비교하는데 표본의 특성에 상관없이 모든 차원이 항상 활용되어야 하므로 비효율적이다. 마지막으로, 밀집 표상의 얽혀있는 차원의 의미를 해석하는 것은 일반적으로 어렵다. 이 논문은 자연어 처리 (NLP)의 의미 검색 분야에 초고차원 희소 표상을 접목하는 걸 통해 앞서 기술한 문제에 어떻게 대처할 수 있는지를 보여준다. 본 논문에서는 먼저 고차원 희소 표상의 이론적 배경과 속성을 설명한다. 그 다음, 짧은 대기 시간 안에 방대한 양의 말뭉치에서 관련 문서를 정확하게 찾아야 하는 텍스트 검색 분야에 고차원 희소 표상을 적용하는 걸 통해 어떻게 성능과 효율성 두 마리의 새를 잡을 수 있는지에 대한 방법론을 제시하고 이를 정보검색 (IR) 및 질의응답 (QA) 분야에서 실험적으로 증명한다. 마지막으로, 제안하는 모델의 결과를 정량적 및 정성적으로 해석할 수 있는 방법론을 제시한다.

서지기타정보

서지기타정보
청구기호 {DCS 22001
형태사항 v, 62 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장경록
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 52-60
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서