서지주요정보
Incremental online learning of robot behaviors from selected multiple kinesthetic teaching trials = 선별된 시연 동작을 통한 점진적 로봇 행동 학습
서명 / 저자 Incremental online learning of robot behaviors from selected multiple kinesthetic teaching trials = 선별된 시연 동작을 통한 점진적 로봇 행동 학습 / Su-Min Cho.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024186

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 12049

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This work presents a new approach to the incremental online learning of behaviors by a robot from multiple kinesthetic teaching trials. The approach enables a robot to refine and reproduce a specific behavior every time a new teaching trial is provided and to decide autonomously whether to accept or reject each trial. The robot neglects bad teaching trials and learns a behavior based on adequate teaching trials. The framework of this approach consists of the projection of motion data to a latent space and the description of motion data in a Gaussian Mixture Model (GMM). To realize the incremental online learning, the latent space and the GMM are refined incrementally after each proper teaching trial. The trial data are discarded after being used. The number of Gaussian components in the GMM is not initially fixed but is autonomously selected by the robot over the trials. The proposed method is more suitable for real-world human-robot interaction. The experiments with a humanoid robot show the feasibility of the approach. We demonstrate that the robot can incrementally refine and reproduce learned behaviors that accurately represent the essential characteristics of the teaching trials through our learning algorithm and that it can reject erroneous teaching trials to improve learning performance.

여러 번의 시연을 통해 로봇을 가르치는 방법, 흔히 learning by imitation 이라고 언급되는 이 방법은 로봇에게 어떠한 동작을 가르치는데 유용한 방법이다. 이 방법은 단순히 로봇으로 하여금 한번의 시연 동작을 그대로 따라 하게 하는 것이 아니라 여러 번의 시연 데이터로부터 일반화된 동작 궤적을 획득하게 하는 방법이다. 이러한 학습 방법은 사용자에게 직관적이고 다양한 형태의 동작들에 대해 일반적으로 적용할 수 있다. 여기에 대한 기존의 연구들은 주로 모든 시연 데이터를 가진 상태에서 한번에 처리하여 동작을 모델링 한다. 하지만 이러한 방식은 실제 현실에 맞지 않다. 사람이 동작을 학습할 때, 시연 데이터는 하나 하나 따로 주어지며, 학습은 한번의 시연에서부터 연속적으로 이루어져야 한다. 또한 학습 과정에서 가르치는 사람은 학습자가 따라 하는 모습을 보고 이를 교정해주기도 하는 등의 상호작용이 이루어진다. 이에 EPFL LASA group에서는 점진적인 학습 알고리즘을 제시한 바 있다. 그들은 Principal Component Analysis(PCA)와 Gaussian Mixture Model(GMM)을 통해 동작 궤적들을 확률 모델 형태로 표현하였고, 매번 새로운 시연 데이터를 획득할 때 마다 GMM을 보정하는 알고리즘을 제시하였다. 하지만 그들의 알고리즘은 PCA를 통해 구해진 latent space와 GMM에서의 component 개수가 고정되어야 하며, 이를 첫 번째 시연 데이터만을 이용하여 구하여 초기 데이터에 민감한 문제가 있다. 따라서 이 논문은 위 한계점을 개선하여 좀더 효과적으로 점진적으로 학습해 나가는 학습 알고리즘을 제시한다. 또한 숙련자가 그 동작을 시연한다고 해도 그것이 매번 정확하게 이루어지지는 않으므로, 로봇이 시연 동작을 능동적으로 판별하며 학습해 나가는 방법을 제시한다. 여기서 제시되는 학습 알고리즘은 행동 데이터를 latent space로 투영하여 이를 GMM의 형태로 저장하며, 매번 새로운 데이터가 들어옴에 따라 이를 판별하여, 데이터가 적절할 경우 latent space와 GMM을 보정해 나간다. 이 학습 알고리즘은 다음과 같은 과정을 통해 동작을 학습한다. Temporal alignment 과정은 획득한 시연 데이터의 타이밍의 차이를 보정한다. 시연 동작은 매번 같을 수 없다. 전체 길이도 달라질 수 있으며, 부분적으로 압축되거나 잡아 늘려질 수 있으며, 이러한 차이로 인해 중요한 특징이 동작 모델에 제대로 반영되지 못할 수 있다. 따라서 Dynamic time warping(DTW) 방법을 통해 이전에 학습된 궤적과 새로 획득된 궤적을 매치 시키고 이들의 평균적인 타이밍에 맞춰 시간을 보정한다. Data integration 과정은 획득된 데이터와 기존에 학습된 모델 데이터를 통합하는 부분이다. 다만 기존의 latent space가 새로운 데이터를 포괄하지 않기 때문에 기존의 latent space에 투영할 경우 데이터의 손실이 발생할 우려가 있다. 따라서 이 과정은 다시 원래의 joint space 에서 이루어진다. Projection onto latent space 과정은 통합된 데이터의 분포를 통해 새로운 latent space를 형성하는 과정이다. 이 과정에서 새로운 데이터를 포괄하는 latent space를 구한다. Determining number of component 과정은 통합된 데이터를 GMM의 형태로 모델링 하기 전에 몇 개의 component로 표현하는 것이 적합할지를 결정하는 과정이다. Component의 개수가 많아지면 좀더 정확한 모델이 되는 반면 복잡도가 증가하여 계산 및 저장에 불리해지며, overfitting으로 인해 오히려 동작의 정확한 특징을 잡아내는데 방해가 될 수 있다. 따라서 Bayesian information criterion(BIC)를 통해 적합한 component의 개수를 결정할 수 있다. 하지만 이 과정은 연산 과정이 복잡하므로 근사식을 통해 학습 속도를 높이도록 한다. GMM refinement 과정은 앞서 만들어진 GMM을 resampling과 EM 알고리즘을 통해 통합된 데이터를 잘 표현하도록 최적화시키는 과정이다. 이를 통해 동작의 학습이 완료되며, 이후 Gaussian Mixture Regression(GMR)을 통해 모델로부터 학습된 동작의 궤적을 재현 할 수 있다. 또한, 세 번의 학습 이후에는 data evaluation 과정이 temporal alignment 과정의 뒤에 추가되는데, 여기서는 새로 들어온 시연 데이터가 기존 모델에 적합한지 여부를 판별한다. 새로 들어온 시연 데이터가 적합하다면 궤적이 기존의 latent space에 투영하였을 경우 데이터의 손실이 크지 않아야 한다. 또한 새로운 시연 데이터는 기존에 학습된 궤적과 같은 동작이므로 유사한 패턴을 지니고 있어야 한다. 이를 두 궤적간의 거리와 속도의 차이를 구해 판별할 수 있다. 다만 이 과정에서 기존에 학습된 모델이 완벽하지 않으므로 제약조건을 조금 느슨하게 잡을 필요가 있다. 이 논문에서는 Aldebaran Nao 로봇을 사용하여 제시된 알고리즘을 세가지 실험을 통해 검증한다. 위 알고리즘은 로봇의 dynamics와는 무관한 알고리즘이므로 밸런스 문제가 없도록 로봇의 25개의 관절 중 상체의 14개의 관절을 사용하였으며, 로봇을 직접 움직여 각 관절의 인코더 값을 읽는 방식으로 20Hz의 시연 데이터를 획득하였다. 그리고 학습 알고리즘의 효용을 평가하기 위해 6개의 태권도 동작을 각 10개의 시연 데이터를 통해 학습시켰다. 또한 시연 데이터 판별 과정을 테스트하기 위해 각 태권도 동작에 대해 12개의 시연 데이터를 판별 과정을 포함한 경우와 포함하지 않은 경우로 나누어 학습시킨 후 그 차이를 비교하였다. 또한 좀더 차이를 명확하게 보이기 위해 로봇의 손으로 도형을 그리는 실험을 통해 이를 검증하였다.

서지기타정보

서지기타정보
청구기호 {MCS 12049
형태사항 iii, 27 p.: 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조수민
지도교수의 영문표기 : Sung-Ho Jo
지도교수의 한글표기 : 조성호
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 26-27
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서