Finding low-dimensional embeddings of sparse high-dimensional data objects is very important in various fields such as recommendation, graph mining, and natural language processing. Recently, autoencoder (AE)-based embedding approaches have achieved state-of-the-art performance in many tasks, especially in top-$\kappa$ recommendation tasks with user embedding or node classification tasks with node embedding. However, we find that since many real-world data follow the power-law with respect to the data object sparsity, AE-based embedding severely suffers from a problem, which we call polarization, that dense data objects move away from sparse ones in an embedding space even if they are highly correlated. In this paper, we propose TRAP that leverages two-level regularizers to effectively alleviate this problem. (i) The “macroscopic regularizer” adds a regularization term in the loss function to generally prevent dense input objects to being distant from other sparse input objects. (ii) The “microscopic regularizer” introduces a new object-wise parameter to individually entice each object to correlated neighbor objects rather than uncorrelated ones. Importantly, TRAP is a meta-algorithm that can be easily coupled with existing AE-based embedding methods with a simple modification. In extensive experiments on two representative embedding tasks using six-real world datasets, TRAP boosted the performance of the state-of-the-art algorithms by up to 31.53% and 94.99% respectively.
추천 시스템, 그래프 마이닝, 및 자연어 처리와 같은 다양한 분야에서 희박성이 높은 고차원 데이터 객체의 저차원 임베딩을 찾는 것은 많은 머신러닝 알고리즘들이 쉽게 유용한 정보를 추출하고 성능을 향상하도록 한다. 최근에는, 딥러닝의 장점을 흡수한 자동 인코더 (AutoEncoder (AE)) 기반 임베딩 기법들이 많은 하위 문제들에서 최첨단 성능을 달성하고 있다. 대표적으로, 추천 시스템에서 유저 임베딩을 기반으로한 top-$\kappa$ 추천, 그래프 마이닝에서 노드 임베딩을 기반으로한 노드 분류 등과 같은 문제들이 있다. 반면, 우리는 대부분의 실세계 데이터에서 나타나는 객체의 희박성 (sparsity)의 멱법칙 (power-law) 분포 특성이 AE 기반 임베딩의 결과에 심각한 문제를 초래함을 발견하였다. 우리는 이를 양극화 (polarization) 문제라 칭하며, 객체의 상호 연관성에 관련없이 밀도높은 데이터 객체가 희박한 데이터 객체로부터 멀어지는 현상을 보임을 의미한다. 본 논문에서는, 정규화기 TRAP을 제안하여 양극화 문제를 극복하는 더욱 유용한 임베딩을 찾을 수 있음을 보인다. TRAP은 2단계 정규화기로서 (i) 밀도높은 객체들이 희박한 객체들로부터 너무 멀어지지 못하도록 제약하는 거시적 정규화기와 (ii) 개별 객체가 양극화 문제로 부터 자유롭게 연관성이 있는 객체와 가까워질수 있도록 하는 미시적 정규화기로 이루어진다. 특히, TRAP은 손실함수와 AE구조의 간단한 수정만으로 기존 AE기반 임베딩 기법들과 쉽게 결합할 수 있는 메타 알고리즘 (meta-algorithm)이다. 6개의 실세계 데이터에서 진행한 두가지 대표적인 임베딩 하위 문제에 대한 광범위한 실험에서 TRAP은 최신 알고리즘들의 성능을 각각 31.53%와 94.99% 까지 향상시킴을 확인하였다.