In this work, the capability of deep Q-network, a type of deep reinforcement learning algorithm, is
examined on a dynamic, multi-agent environment AI soccer simulation game. In the AI soccer simulation
game, two teams of three differential-wheel robots compete as in the real soccer game, pushing the orange-colored ball into each other’s goal area to earn more score than the opponent team. The simulation game provides various data including the top-view image of the soccer field, positions and orientations of the robots and the ball, scores, etc. to each team’s controller in every simulation step to be used as the sources for learning and playing the AI soccer game. To control three robots belonging to the home team, two or three deep Q-networks are trained on the AI soccer environment. One deep Q-network is assigned to control a goalkeeper robot. The other two robots are the attackers and controlled in two ways. In one method, one deep Q-network controls two robots simultaneously. In the other method, two deep Q-networks control two robots separately. The deep Q-networks take the top-view image of the soccer field as the input and output the ID of primitive action to be executed by the robot they control. The rewards are set as to motivate the robots to take the role of a goalkeeper and two attackers. For training the deep Q-networks, different sessions are held to train the goalkeeper and two attackers separately and then simultaneously. Through evaluation of the training sessions, the possibility for the deep Q-network to learn how to play the AI soccer game when adequate state, actions, and rewards are defined is shown.
이 논문에서는 심층 강화 학습 알고리즘의 한 종류인 심층 큐-신경망이 동적인 다수의 에이전트가 존재하는 환경인 인공지능 축구 시뮬레이션 게임에 적용이 가능한 지 살펴보았다. 한 팀의 세 로봇을 조종하기 위하여 두 개 혹은 세 개의 심층 큐-신경망을 사용하였는데, 한 신경망은 골키퍼 로봇을 조종하기 위해 사용하였고, 나머지 한 개 혹은 두 개의 신경망은 두 대의 공격수 로봇을 동시에 혹은 따로 조종하기 위해 사용되었다. 각 신경망은 축구 경기장의 평면 시점 이미지를 입력으로 사용하여 해당 상황에서 정의된 단순 행동들 중 어떤 행동을 로봇이 취하는 것이 좋을 지 판단하여 이를 수행하게 한다. 행동에 대한 보상은 각 로봇이 골키퍼와 공격수의 역할을 학습하도록 주어졌다. 세 학습 세션을 통하여 골키퍼와 공격수를 학습을 진행하였고 그 결과, 심층 큐-신경망이 적절한 상태, 행동, 보상을 설정하는 것으로 인공지능 축구 시뮬레이션 게임을 학습하여 진행할 수 있는 가능성을 보였다.