Spoken dialog systems (SDS) are the most ecient interface for human-machine communication because a human can convey and receive large information in short time via spoken language. In this dissertation, toward emotional dialog systems, our research goals in terms of applications are (i) performance improvements of acoustic models in automatic speech recognition and (ii) natural language understanding and generation for emotional dialog. In terms of neural representations in deep architecture, we aim at (i) achieving discriminative but insensitive representations of speech acoustics, and (ii) disentangling emotional attributes from the latent representations of texts for emotional response generation.
In the first part of the dissertation, we study representations of speech acoustics for obtaining robustness to spectral variations in convolution neural networks-hidden Markov model (CNN-HMM) hybrid acoustic model in ASR. We contend that convolution along the time axis is more effective than along the frequency axis. We also propose the addition of an intermap pooling (IMP) layer to deep CNNs that groups common spectrally variated features and then pools them, so that achieve the robustness to the spectral variations. The IMP-CNNs with the time convolution reduce the word error rates more in various speech database without speaker adaptation techniques. We expect the proposed model to be more useful when the speaker information is limited access.
In the second part of the dissertation, we deal with a neural empathic conversational agent that can generate emotional responses by controlling the emotion attributes. We tackle this problem by two sub-goals: (1) controllable emotional sentence generations by disentangling emotional latent vectors of a sentence, and (2) controllable emotional response generations by matching context and response latent vectors. We propose deep generative frameworks to solve these problems: Wasserstein adversarial controllable autoencoder (WACAE) and Wasserstein adversarial controllable response generator (WACRG). The models are experimentally demonstrated on DailyDialog dataset, showing that proposing methods improve the emotion expressivity as well as the feasibility of emotional text and response generation and emotion transfer of sentences. From these results, we expect that the proposed models would be used to construct dialog systems that can communicate emotionally with the user according to the change of emotion of the conversational agent.
음성 대화 시스템은 사람이 음성 언어를 통해 짧은 시간에 많은 정보를 주고받을 수 있기 때문에 인간-기계 의사소통을 위한 가장 효율적인 인터페이스 중 하나이다. 이 논문에서 감정 대화 시스템을 구축하기 위해 우리의 연구 목표는 (i) 자동 음성 인식에서의 음향 모델의 성능 향상과 (ii) 감정적 대화를 위한 자연어 이해 및 생성이다. 심층 아키텍처의 신경 표현 측면에서 우리는 (i) 구별되지만 민감하지 않은 음성 음향 표현을 달성하고 (ii) 감정적 반응 생성을 위해 텍스트의 잠재 표현에서 감정 속성을 분리해내는 것을 목표로 한다.
이 논문의 첫번째 부분에서, 우리는 자동 음성 인식 내 컨볼루션 뉴럴 네트워크-숨겨진 마르코프 모델 (CNN-HMM) 하이브리도 음향 모델에서 스펙트럴 변화에 대한 견고성을 위해 음성의 어쿠스틱 표현 방법에 대해 연구했다. 우리는 컨볼루션 연산이 시간 축을 따라 하는 것이 주파수 축을 따라서 행하는 것보다 효율적임을 보였다. 또한 우리는 맵간 풀링 (IMP) 층을 CNN에 추가할 것을 제안하였다. 이 층에는 몇 개의 필터들이 그룹으로 묶여있고 각 그룹 내에서 최대값 풀링 연산을 통해 결과 값을 출력한다. 따라서 그룹 내 필터들은 스펙트럴 변화한 공통된 특징들을 학습하게 되며, 따라서 그 변화에 강인하게 된다. 제안하는 방법은 대용량 음성 데이터인 Switchboard, Wall Street Journal, Aurora4 데이터에 대해 실험하였고, 단어 오인식율로 평가한 음성 인식 성능의 향상을 보였다. 제안하는 심층 신경망 구조는 한 층의 IMP 층을 추가함으로써 별도의 화자적응 기술 없이도 비슷한 성능을 나타냄을 보였다. 우리는 화자정보를 알기 어려운 음성인식 환경에서 더 유용하게 사용될 수 있을 것이라 기대한다.
이 논문의 두번째 부분에서, 우리는 대화 에이전트의 감정에 따라 감정 응답을 생성 할 수 있는 신경망 기반의 정서적 대화 에이전트를 다룬다. 우리는 이 문제를 풀기 위해 두가지 하위 문제로 나누었다. (1) 문장의 잠재 표현 벡터로부터 감정 변수를 분리하고, 감정 변수를 조절하여 제어 가능한 감정 문장 생성. (2) 문맥(대화 히스토리)과 응답 잠재 표현 벡터를 매칭시킴으로써, 응답의 감정이 제어 가능한 감정적 반응 생성. 우리는 각각의 하위문제를 위해 Wasserstein adversarial controllable autoencoder (WACAE) 와 Wasserstein adversarial controllable response generator (WACRG) 이라고 이름 붙인 심층 생성 모델 프레임워크를 제안하였다. 이 모델은 DailyDialog 데이터로 실험 및 평가되었고, 감정 문장 및 응답을 생성할 수 있으며, 문장의 감정을 다른 감정으로 바꾸어 표현하는 것이 가능함을 보였다. 이 결과로부터 제안한 모델이 대화 에이전트의 감정 변화에 따라 사용자와 정서적으로 대화할 수 있는 시스템을 구축하는데 활용될 수 있을 것이라 기대한다.