In case of an unexpected situation, such as a nuclear accident, it is essential to use a robot to perform an initial action, and the legged robot must be put into the task. When an accident occurs in the nuclear power plant, it is impossible to control with predefined ZMP trajectory due to the various step structures made by the accident. Therefore, a gait pattern generation algorithm that can stably walk and overcome a step structure is needed to prepare for an unexpected situation. Using reinforcement learning, a gait pattern suitable for certain situation can be generated. The purpose of this thesis is to control robot to overcome various step structures by applying the deep deterministic policy gradient algorithm.
원전 사고 등 사람이 접근할 수 없는 돌발 상황의 경우 로봇을 이용하여 초동 대처를 하는 기술이 필수적이며, 해당 작업에는 족형 로봇이 투입되어야만 한다. 또한 원전 내 사고가 발생 했을 때에는 사고로 인해 만들어진 각종 단차 구조물들로 인해 미리 계산된 ZMP 궤적을 통한 제어가 불가능해진다. 따라서 사고시 돌발 상황에 대비하기 위하여 안정적으로 보행하며 단차 구조물을 극복할 수 있는 보행 패턴 생성 알고리즘이 필요하며, 강화학습을 이용하면 상황이 변화해도 그 상황에 맞는 보행 패턴을 생성해낼 수가 있다. 본 학위논문에서는 심층, 결정론적 정책 구배 알고리즘을 적용하여 학습을 통해 족형 로봇이 각종 단차 구조물을 극복할 수 있도록 제어하는 것을 목표로 한다.