Deep learning-based models generally use low-dimensional dense representations to express data samples. Although compact and powerful, it bears several shortcomings that make it unsuitable for tasks requiring processing a large number of samples (e.g., searching documents from web-scale corpus). More specifically, since each dimension of low-dimensional dense representations is highly entangled because of the limited number of dimensions available, it is susceptible to false matches when the number of samples is large. Also, all the dimensions must participate in representing and comparing samples regardless of each sample's characteristics, which is inefficient. Lastly, it is usually hard to interpret the entangled dimensions of dense representations.
This thesis shows how high-dimensional sparse representations can cope with such problems in the field of natural language processing (NLP). We first explain the theoretical background and properties of high-dimensional sparse representations. Then we show how high-dimensionality and sparseness allow us to kill two birds, the performance and efficiency when applied to information retrieval (IR) and question answering (QA), the NLP tasks that require accurately finding relevant documents or answers from a vast amount of corpus with low latency. Finally, we introduce a method to interpret the model's outcome in quantitative and qualitative ways.
딥 러닝 모델은 일반적으로 저차원 밀집 표상 방식을 사용하여 데이터 표본을 표현한다. 이러한 표현 방식은 사용하기 용이하고 강력하지만, 많은 표본을 처리해야 하는 작업 (예: 웹 규모 문서 검색)에서는 단점을 보일 수 있다. 구체적으로, 저차원 밀집 표상의 각 차원 (자질)은 저차원성으로 인해 사용 가능한 차원의 수가 제한되어 있어 의미 얽힘의 정도가 크고, 때문에 표본 수가 많은 경우 표본 간 잘못된 의미 일치를 유발하기 쉽다. 또한 표본을 표현하고 비교하는데 표본의 특성에 상관없이 모든 차원이 항상 활용되어야 하므로 비효율적이다. 마지막으로, 밀집 표상의 얽혀있는 차원의 의미를 해석하는 것은 일반적으로 어렵다.
이 논문은 자연어 처리 (NLP)의 의미 검색 분야에 초고차원 희소 표상을 접목하는 걸 통해 앞서 기술한 문제에 어떻게 대처할 수 있는지를 보여준다. 본 논문에서는 먼저 고차원 희소 표상의 이론적 배경과 속성을 설명한다. 그 다음, 짧은 대기 시간 안에 방대한 양의 말뭉치에서 관련 문서를 정확하게 찾아야 하는 텍스트 검색 분야에 고차원 희소 표상을 적용하는 걸 통해 어떻게 성능과 효율성 두 마리의 새를 잡을 수 있는지에 대한 방법론을 제시하고 이를 정보검색 (IR) 및 질의응답 (QA) 분야에서 실험적으로 증명한다. 마지막으로, 제안하는 모델의 결과를 정량적 및 정성적으로 해석할 수 있는 방법론을 제시한다.