Partially observable Markov decision processes (POMDPs) have received significant interest in research on spoken dialogue systems, due to among many benefits its ability to naturally model the dialogue strategy selection problem under unreliable automated speech recognition. However, the POMDP approaches are essentially model-based, and as a result, the dialogue strategy computed from POMDP is still subject to the correctness of the user model. Moreover, there are difficulties in evaluating the dialogue strategies with no guarantee of the user model quality.
In this paper, we propose a novel evaluation scheme for dialogue strategies of MDP/POMDP-based dialogue systems, which evaluates the dialogue strategies under model uncertainty. For the experiments, we extend some of the previous MDP user models to POMDPs, and evaluate the effects of user models on the dialogue strategy computed from POMDPs. We experimentally show that this evaluation method yields more reliable results in a sense that a strategy learned with a poor user model fails severely across different user models, and a strategy learned with a good user model performs well consistently. We additionally show that the strategy computed from POMDPs is more robust for model variations compared to MDPs.
부분 관찰 마르코프 의사결정 과정(POMDP)은 대화 관리 시스템 연구에서 많은 주목을 받고 있다. 이는 부정확한 자동 음성인식 하에서 대화 정책의 선택 문제를 자연스럽게 모델링할 수 있는 POMDP의 장점 때문이다. 그러나 POMDP는 기본적으로 모델 기반 방법이기 때문에 POMDP로부터 계산된 대화 정책의 품질은 사용자 모델의 정확도에 영향을 받는다. 그러므로 이러한 사용자 모델의 정확도를 보장할 수 없는 경우에 POMDP로부터 계산된 대화 정책의 성능을 평가하는 데에는 어려움이 따르게 된다. 본 학위논문에서는 한정된 데이터로부터 학습된 사용자 모델의 불확실성을 고려하는 새로운 대화 정책 성능 평가 방법을 제안한다. 이를 위해 기존의 마르코프 의사결정 과정(MDP) 기반 사용자 모델을 POMDP로 확장하고, 이로부터 계산된 대화 정책에 미치는 사용자 모델의 영향을 평가한다. 실험 결과, 제안된 대화 정책 평가 방법을 사용하였을 때 나쁜 사용자 모델에서 학습된 정책은 어떠한 사용자 모델에 적용하더라도 나쁜 성능을 보이고, 좋은 사용자 모델에서 학습된 정책은 일관되게 좋은 성능을 보이는 등 더 신뢰성이 높은 평가 결과를 보였다. 또한, POMDP로부터 계산된 정책이 MDP로부터 계산된 정책보다 모델의 변이에 대해 더욱 강인하다는 사실을 확인하였다.