Text-based game is an instance of partially observable environment where the observation and action are in the form of natural language. Generalizing in text-based games serves as a useful stepping-stone towards reinforcement learning (RL) agent with generic linguistic ability. Prior works on generalization in RL often applied data augmentation techniques, but none of them focused on text-based games. We propose a novel data augmentation technique for text-based games, Transition-Matching Permutation, where we identify phrase permutations that match as many transitions in the trajectory data. Applying this technique resulted in the state-of-the-art performance in a procedurally generated TextWorld's Cooking Game benchmark.
텍스트 게임은 관측과 행동이 모두 자연어로 된 부분 관측 환경의 일종이다. 텍스트 게임에서의 일반화는 일반 언어 능력을 지닌 강화학습을 위한 중요한 발판이다. 이전의 강화 학습 연구에서도 일반화를 위해 데이터 증강을 적용하였으나 텍스트 게임에 이를 적용한 연구는 없었다. 본 연구는 텍스트 게임에 적용할 수 있는 데이터 증강 방법인 "전이 대응 치환"을 제안한다. 이 방법론은 경로 자료를 바탕으로 개별 전이를 일정 기준보다 많이 대응시키는 어구 치환을 찾아 훈련에 적용한다. 이 기법을 절차 생성 텍스트 게임 벤치마크에 적용한 결과 이전보다 더 높은 성능을 얻을 수 있었다.