In Natural Language Understanding (NLU), sequence models such as Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) are widely used because they can learn phrase and sentence representations that are sensitive to word order. However, the sequence models share a common limitation that previous contextual information tends to be forgotten as new words are processed. It makes the sequence models hard to learn the relations among new word and words processed in the previous. To address the limitation, we propose a sequence model called Restorable Long Short-Term Memory (R-LSTM) that can restore the forgotten information needed to understand the current word. R-LSTM is an extension of the LSTM by applying two approaches: a multiple attention mechanism with coverage loss and a restore gate. The multiple attention mechanism with coverage loss extracts the relevant contexts from the stored previous contexts. The relevant contexts are selectively reflected into current memory of R-LSTM through the restore gate. In other words, the restore gate enables our R-LSTM to restore only the forgotten and meaningful information. We evaluate our model on various NLU tasks and data sets: language modeling (WikiText-2 data set); natural language inference (SNLI data set); text classification (AG's News, Yahoo! Answers, Yelp Review Polarity data sets). In general, experimental results on various tasks show that the performance of our model outperformed in comparison of conventional sequence models. Moreover, the exploratory experiments on WikiText-2 data set are conducted to assess that each proposed approach affects positively on the performance.
자연어 이해 분야 연구에서 시퀀스 모델은 문장 내 단어 간의 위치적 특성을 반영할 수 있기 때문에 널리 사용되고 있다. 하지만, 기존의 시퀀스 모델은 입력 단어를 순차적으로 처리하는 과정에서 과거의 문맥 정보를 잊을 수 있다는 잠재적 한계를 지닌다. 이로 인해, 시퀀스 모델은 새로운 단어와 과거 시점에 처리된 단어간의 연관성을 학습하기 어려운 경향을 보인다. 본 논문에서는 다중 어텐션과 복원 게이트를 적용하여 과거 문맥을 소실하는 문제를 개선한 시퀀스 모델로서 R-LSTM을 제안한다. 다중 어텐션은 커버리지 손실 함수를 함께 적용하여 과거 문맥들로부터 현재 단어와 연관된 문맥들을 추출하고, 복원 게이트는 앞서 추출된 연관 문맥 중 잊혀진 문맥 정보만을 선별하여 복원한다. 실험에서는 제안 모델의 성능 검증을 위해 자연어 이해 분야의 여러 태스크를 대상으로 비교평가하였다. 전반적으로 모든 태스크에서 제안 모델이 기존의 시퀀스 모델에 비해 더 뛰어난 성능을 보였으며, 본 논문에서 제안한 커버리지 손실 함수가 적용된 다중 어텐션, 복원 게이트가 각각 성능 향상에 긍정적으로 작용함을 확인하였다.