According to the growth of the robot industry, robots for service or entertainment currently have become one of the major areas of robot field. Unlike traditional industry robots, these robots are commonly operating in the workspace near the human and implementing tasks that require communication and interaction with humans. Therefore, technologies related to Human-Robot Interaction and communication have become more important. It is commonly believed that gesture is a fundamental component of human communication. Especially, spontaneous (unplanned, unself-conscious) gesture is accompanied with speech in most communicative situations in most cultures. The goal of this study is to make automated dialog-based Beat gesture generation system for service/entertainment robots. Beat gesture is the most frequently appeared gesture category, which is accompanied with vocal speech. Beat gestures performed by a human are closely related to intonation of speech voice, and these gestures have the role of emotional expression. In this study, humans’ Beat gesture patterns are analyzed and the extracted basic Beat gesture patters are applied to robots. The proposed system generates a sequence of basic Beat gesture patterns according to arbitrary input dialog text and TTS(Text-to-Speech) wave file in real-time. In addition, generated robot gesture motion can be varied by reflecting a robot’s emotion with LMA’s Effort model proposed by this study. Implementation and evaluation were performed with both the graphic simulator and real hardware platform of the robot ‘Engkey’.
전통적인 산업용 로봇에서 벗어나 사람과 밀접한 환경에서 작동하는 서비스/엔터테인먼트 로봇 분야가 발전함에 따라, 인간-로봇 상호작용(HRI) 관련 기술의 중요성이 대두되고 있다. 로봇의 자연스러운 제스처 표현은 효과적인 인간-로봇 상호작용을 위해 필수적인 부분이며, 특히 로봇의 발화(speech) 상황에서 수반되는 제스처 표현은 사람과 로봇 사이의 효과적인 의사소통을 위해 필요한 요소이다. 이에 본 연구는 서비스/엔터테인먼트 로봇 플랫폼을 적용 대상으로 하는 발화 문장 입력 기반 Beat 제스처 자동생성 시스템을 제시하였다.
Beat 제스처는 사람의 제스처 중 가장 높은 빈도로 나타나는 제스처로서, 발화 음성의 억양(intonation)에 연관되어 발현된다는 것이 선행 연구를 통해 알려져 있다. 본 연구에서는 발화 음성의 억양 정보를 단순화하여 추출하기 위해 문장 부호를 통한 억양 정보 단순화 추정을 사용하였고, 발화 문장 부호에 따른 사람의 제스처 패턴 분석을 통해 발현 빈도가 높은 5가지 basic Beat gesture pattern을 추출하였다.
이렇게 추출된 basic Beat gesture pattern을 라반 움직임 분석(LMA)의 basic body action 개념을 적용한 symbolic primitive motion을 통해 일반화된 방법으로 기술하고, 이것을 로봇 하드웨어 별로 해석하여 제스처 표현을 수행하는 방법을 제안하였다. 또한 로봇 하드웨어에 맞게 해석된 trajectory를 LMA의 Effort model 기반으로 표현하고자 하는 기본 감정을 반영하여 변화시킴으로써, 생성된 제스처 표현의 단조로움을 탈피하고 다양한 상호작용 상황에 대한 대응 능력을 향상시켰다.
이렇게 생성된 Beat 제스처는 대화 문장의 발화 음성(TTS)과 동기화되어 최종적인 실시간 로봇 표현으로서 수행된다. 최종적으로 본 연구에서 제시한 시스템을 서비스/엔터테인먼트 로봇 ‘잉키’의 그래픽 시뮬레이터 및 실제 하드웨어 플랫폼에 적용하여, 사용자 테스트를 거쳐 임의의 대화 문장에 대해 제스처 자동생성 시스템의 유효성을 확인하였다.