A number of neural models have been proposed in the literature to generate meaningful and grammatically correct sentences. However, those models have drawbacks such as lack of diversity or inability to generate successive sentences. To apply NLP neural models in real-world tasks like dialogues, simply predicting a next sentence at a time using autoregressive models or sampling sentences from trained generative models is not enough. In this thesis, as an extension of existing sentence generation research, we propose a new approach for generating diverse successive sentences. We base our model in variational auto-encoder (VAE) and combine it with an additional recurrent network for successive context learning. We evaluate formulated sentences with the type token ratio (TTR) measure and show that our model is superior to the base model on diversity. Furthermore, by presenting a method of conditioning our model on another latent codes, we show that it is also possible to change flows of generated sentences differently depending on the given latent code.
문법과 의미상으로 완전한 문장 생성을 위해 지금까지 많은 신경망 모델들이 제안되었지만, 여전히 각각의 모델들은 다양성 또는 연속된 문장 생성 측면에서 한계를 보이고 있다. 그러나 자연어 처리를 위한 신경망 모델들을 실제 대화분야 등에서 상용화하기 위해서는, 단순한 자기회귀 모델 (Autoregressive, AR)을 활용한 다음 문장 예측 기술이나 생성모델을 통한 문장 단위 언어 생성 기술과 같은 기존의 방식만으로는 부족하다. 그리하여 본 논문에서는 기존의 문장 생성 연구들을 확장하여, 다양성을 보장하는 동시에 연속적인 문장들을 생성할 수 있는 새로운 방법을 제안하고자 한다. 본문에서는 연속적 문맥 학습이 가능한 순환 신경망 모델과 결합된 variational auto-encoder (VAE) 생성모델의 구조와 훈련 방식을 다루었다. 실험 부분에서는 어휘 다양도 (Type token ratio, TTR) 측정 단위를 활용하여 각각의 모델로부터 생성된 문장의 다양성을 비교 및 제시함으로써 본 논문에서 제안한 모델의 다양성 성능을 수치적으로 검증하였다. 그리고 끝으로 새로운 잠재변수 조건의 추가를 통해 문장 생성시 문장들의 흐름 특성 또한 조건대로 조절 할 수 있음을 실험적으로 보임으로써 제안한 모델의 새로운 확장 방향을 제시하였다.