서지주요정보
변형체 조작을 위한 시·촉각 강화학습 테스트베드 = (A) reinforcement learning testbed for deformable object manipulation using visuotactile sensing
서명 / 저자 변형체 조작을 위한 시·촉각 강화학습 테스트베드 = (A) reinforcement learning testbed for deformable object manipulation using visuotactile sensing / 안찬영.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041942

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MRE 24008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We aim to create a simulated testbed for training and assessing deformable object manipulation skills. This testbed requires tactile sensing to distinguish heterogeneous elasticities of a deformable object to acquire skills. In this work, we introduce a visuotactile testbed, DetactGym, for deformable object manipulation, integrating a novel architecture of tactile sensors leveraging collision cascades. These sensors integrate a diamond-shaped rigid element encased within an external rigid structure. This design overcomes a fundamental limitation of PhysX engine-based simulators: their inability to directly measure contact force on deformable objects. The diamond-shaped element efficiently transmits the contact force to the outer structure during interactions with these objects, ensuring force measurements. Our evaluation focuses on the testbed’s capability, equipped with tactile sensors, to facilitate the learning of lifting heterogeneous deformable objects with minimal deformation through reinforcement learning methods. Our findings highlight the effectiveness of tactile feedback over visual cues in manipulating deformable objects with diverse elasticities, reducing deformation.

본 연구는 비정형 물체 조작 스킬을 학습하고 평가하기 위한 시뮬레이션 테스트베드를 제공하는 것을 목표로 한다. 이러한 테스트베드는 비정형 물체 내부의 국소적인 탄성을 구별하기 위해 촉각 정보를 취득할 수 있어야 한다. 따라서 본 논문에서는 비정형 물체 조작을 위해 텍타일 센서를 사용할 수 있는 시촉각 테스트베드 DetactGym을 제안한다. DetactGym에서 제공하는 텍타일 센서는 다이아몬드 형태와 이를 둘러싼 강체 부품으로 구성되어 있으며, 이를 통해 기존 PhysX 엔진 기반 시뮬레이터에서 불가능했던 비정형 물체에 대한 접촉력을 측정할 수 있도록 한다. 텍타일 센서는 비정형 물체가 다이아몬드 형태의 강체에 부딪히면 이를 둘러싼 외부 강체와 충돌하면서 접촉력을 측정한다. 우리가 제안한 DetactGym에서 텍타일 센서를 활용하여 탄성이 불균일한 비정형 물체의 변형을 최소화하여 들어올리는 스킬을 강화학습을 통해 취득할 수 있는지 평가하였다. 결과적으로 우리는 이러한 비정형 물체를 들어올리는 스킬을 학습할 때, 시각적 단서보다 텍타일 정보가 학습에 더 유효하다는 사실을 보이며, 제공한 테스트베드에서 위 스킬을 성공적으로 학습할 수 있음을 보인다.

서지기타정보

서지기타정보
청구기호 {MRE 24008
형태사항 iii, 35 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Chanyoung Ahn
지도교수의 한글표기 : 박대형
지도교수의 영문표기 : Daehyung Park
부록 수록
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 참고문헌 : p. 30-34
주제 테스트베드
비정형 물체 매니퓰레이션
강화학
Testbed
Deformable object manipulation
Reinforcement learning
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서

비정형 물체의 종류와 그에 따른 특징 및 주요 조작 스킬

센서 정보에 따른 비정형 물체 조작에 미치는 이점과 한계점을 나타낸 표[25]이다. Guet al. [25] 에서는 Hellman et al. [22]를 텍타일 센싱을 사용한 1차원 비정형 물체로 분류하였다. 하지만, Hellman et al. [22]은 변형이 비교적 덜 되는 지퍼와 변형이 비교적 잘 되는 비닐로 이루어진 지퍼백을 사용하기 때문에, 이 논문에서는 불균일 비정형 물체로 분류하였다.

DetactGym의 전체적인 프레임워크로, 비정형 물체 조작을 위해 촉각센서와 포인트 클라우 드 데이터를 취득하여 학습할 수 있는 인터페이스를 제공한다. DetactGym은 외부 상태 표현 학습(state represenatation learning, SRL) 모델을 통해 포인트 클라우드를 함축 표현한 잠재 벡터를 강화학습의 상태 (state)로 사용할 수 있다. 또한, ORBIT [49]을 통해 강화학습 라이브러리를 사용할 수 있도록 한다.

DetactGym에서 제공하는 불균일 비정형 물체. 비정형 물체의 탄성력을 영률(Young's Modulus) 를 변경하여 조절 할 수 있으며, 내부 단단한 부분의 위치를 5가지로 바꾸어서 물체를 다양화 할 수 있다. 또한, 시뮬레이터 내에서 비정형 물체의 크기를 수정할 수 있다.

상용 텍타일 센서인 Xela robotics사의 XR1946 [66]와 실제 물체에 접촉하였을때의 센싱 이미 지이다. XR.1946은 한 센서 당 총 24개의 taxel로 구성되어 있으며, 각 taxel당 2방향의 전단력(shear force) 과 1방향의 수직력(normal force)을 측정할 수 있다. 센서 이미지에서 1축의 수직력은 원의 크기, 2축의 전단력은 원의 위치로 표현된다. 텍타일 센싱 값은 1초에 250회 수집가능하다.

Detactile 텍타일 센서를 네 방향에서 관측한 형상이다.

Detactile 센서를 구성하는 대안적 충돌 구조

Detactile 텍타일 센서를 구성하는 taxel을 네 방향에서 관측한 형상이다. 상단의 모습은 taxel을 구성하는 부품을 분리하여 시각화 한 것이고, 하단은 taxel을 구성하는 부품을 장착하여 시각화 한 것이다.

Detactile 텍타일 센서 Taxel의 단면도를 표현한 그림이다. (a)는 텍타일 센서를 구성하는 강체 끼리 부딪히는 접촉면을 정면에서 바라본 것이다. 비정형 물체가 강체 윗부분에 닿으면 아래의 두 강체가 주황색 선에서 충돌하면서 접촉력을 측정할 수 있다. (b)는 taxel의 두 강체끼리 맞물렸을때의 정면 구조이 다. 그리퍼가 움직이면서 강체가 나가지 않도록 하부의 강체가 상부를 둘러싸는 형태로 설계하였다. (c)는 taxel의 하부구조로 전단력을 측정할 수 있도록 경사 형태의 구조로 구성하였다.

시뮬레이션 내 Detactile 센서를 활용한 불균일 비정형 물체 접촉력 측정 결과. 불균일 비정형 물체와 접촉하였을 때, 센싱되는 전단력과 수직력을 나타낸 그림이다. 그리퍼 팁 안쪽 면(주황색)이 비정형 물체와 접촉하였을 때, 센싱되는 값은 오른쪽의 어레이 형태로 나타낸다. 오른쪽 센싱 값의 원의 크기는 수직력, 원의 위치는 x,y 방향의 전단력을 뜻한다. 단일 환경에서 시뮬레이션 수행 시, 최대 한 그리퍼 팁 당 24개의 taxel을 구성하여 측정할 수 있으며, 이 그림은 단일 환경에서의 접촉력을 표현한 것이다. 병렬 환경 에서는 시뮬레이션 학습의 속도를 고려하여 그리퍼 팁 당 6개의 taxel이 장착된 그리퍼를 사용하여 학습할 수 있다.

시·촉각 테스트베드 검증을 위한 비정형 물체 조작 스킬 환경. 왼쪽 그림과 같이 Soft-lift-v0 조작환경을 병렬로 구현하여 강화학습을 수행할 수 있다. 시·촉각 센싱을 통해 오른쪽 그림처럼 불균일 비정형 물체를 들어올렸을 때 그 변형을 최소화할 수 있는 스킬 학습을 할 수 있다.

Soft-lift-v0의 한 에피소드에서 로봇의 탐색 과정이다. 매 스텝마다 로봇은 센싱 정보와 로봇 위치 정보를 관측하며, 이를 통해 스킬 학습을 위한 강화학습 정책(policy)를 학습할 수 있다. 두번째 열에서 로봇이 비정형 물체를 잡는 과정에서 측정한 텍타일 센싱 정보를 볼 수 있다.

DetactGym에서 제공하는 시뮬레이션 기반의 텍타일 센서와 촉각 센서의 구조적 차이를 나타낸 그림. (a)는 Detactile 텍타일 센서로, 한 그리퍼 팁 당2X 3개의 위치에서 접촉력을 각각 측정할 수 있다 하지만, (b)의 경우 같은 접촉 면적인 1개의 taxel로 이루어져 있어, 팁 당 오직 한 위치에서 2개의 전단력과 1개의 수직력을 측정할 수 있다. (a)와 (b)를 통해 촉각 센서의 어레이 형태인 텍타일 센싱 데이터와 촉각 센싱 데이터가 비정형 물체 조작 스킬 학습에 어떠한 차이를 보이는지 확인할 수 있다.

두 포인트 클라우드 간의 deform chamfer distance(CDDO)를 구하는 과정을 나타낸 그림이다. (a)는 초기의 비정형 물체 포인트 클라우드 Si(초록색)과 현재 상태의 포인트 클라우드 S2(적색)를 나타낸 것이다. (b)는 두 포인트 클라우드 S1와 S2의 강체의 위치 정보를 이용해 변환 행렬을 구하고, 이를 현재 포인트 클라우드 S2에 곱하였을 때이다. (c)는 물체 자체의 회전에 대한 정보를 없애기 위해 Si와 S2의 강체의 회전 정보를 이용해 변환 행렬을 구하고, 이를 현재 포인트 클라우드 S2에 곱하였을 때이다. (d)는 CDDO값이 물체의 크기에 따라 영향을 받지 않게 하기 위해서 포인트 클라우드의 크기를 모두 [-1,1까지 정규화 한다.

Chamfer Distance for Deformable Object, 비정형 물체의 변형량에 따른 수치 변화를 나타낸 다. 비정형 물체를 파지하였을 때, 변형을 최소화 하여 들어올렸을 때, Soft-lift-v0 환경에서 CDDO 값은 200 이하로 나오며, 변형이 심할 때는 500 이상이 되어 포인트 클라우드 정보를 통해 비정형 물체의 변형을 측정할 수 있음을 확인할 수 있다.

Soft-lift-v0의 비정형 물체 랜덤화 종류를 표현한 그림이다. 상단의 물체처럼 각 에피소드 초기화 마다 비정형 물체의 크기를 0.9에서 1.2배 사이로 랜덤 선택 하며, 중간의 물체처럼 초기 포지션 또한 초기화 만가다 다른다. 매 02033 -0.0063*** 무체치러 듯기 및체 가드르 l[ 200 20인 우만이상 계획관 한다

Soft-lit-wo에의의 한 에피소드에서의 비정형 물체 파지 과정이다. (a)는 변형이 잘되는 부분으로 파지하여 작업 수행에 실패한 에피소드이다. (b)는 불균일 비정형 물체에서 비교적 단단하여 변형이 잘 되지 않는 부분으로 파지하여 작업 수행에 성공한 에피소드이다.