Since Fukushima nuclear plant accident, there have been needs for a robot on behalf of humans. Accordingly DARPA held the robotics challenge to make the robot performing disaster task. This challenge is received attention to the robotics engineers and the public in the world. As the significance of developing the robot for a disaster is increase, my laboratory is developing a legged robot. In this study, I generated the manipulator trajectory to avoid obstacle for the nuclear plant task and bipedal walking pattern of our robot using the reinforcement learning. Reinforcement learning, the algorithm that mimics the human process of learning, which can be effectively used in complicated model system. I set a state, action and reward for generating manipulator trajectory to avoid the obstacle using the kinematics information. By using the Q-learning, I selected an action that gives the highest reward to the current state and generated the trajectory without colliding random obstacle. And I generated the bipedal walking pattern to stable without falling using the ZMP stability. Since the hip trajectory has a great influence on the stability, I generated bipedal walking pattern through trial and error of hip pattern which is expressed polynomial.
후쿠시마 원전 사고 이후로 사람을 대신할 로봇의 필요성이 크게 대두되었다. 이에 따라 미국 국방성 산하 방위고등연구계획국(DARPA)에서는 재난 발생시 임무를 수행할 수 있는 로봇 개발을 목표로 재난 로봇 대회를 열었다. 이 대회는 전세계 로봇공학자들과 대중들의 큰 관심을 끌었으며, 재난 로봇의 중요성이 커짐에 따라 본 연구실에서는 재난 사고 발생시 임무를 수행하기 위한 족형 로봇을 개발하고 있다. 본 연구는 개발중인 로봇의 이족 보행 패턴을 생성하는 것에 초점을 맞추고 있다. 최근 크게 각광받으며 뛰어난 성능을 보이고 있는 기계학습, 그 중에서도 사람의 학습 능력을 모방한 강화학습을 이용하여 매니퓰레이터의 장애물 회피 궤적을 생성하고, 안정한 이족 보행 패턴을 생성한다. 매니퓰레이터와 하체의 기구학 및 동역학을 분석하고 Q-learning을 이용하여 장애물과 충돌을 일으키지 않는 궤적을 생성하고 ZMP를 기반으로 안정한 둔부의 궤적을 생성한다.