This research aims to estimate 3D sign language hand shape animation from 2D RGB video with machine learning and artificial intelligence techniques. There has been great advances in 3D pose estimation research, which extracts human 3D poses from 2D RGB videos and images. However, several factors can be considered to improve when extracting 3D sign language poses. Such considerations include grammatical constraints, or eliminating noisy data. To achieve this goal, this thesis leverages 3D pose estimation technique to extract raw 3D poses from given 2D RGB video inputs. Furthermore, Triangular Moving Average based filtering is applied to eliminate noisy data. Gaussian Mixture Model based key- pose extraction component is applied to filtered data to extract significant key poses from given lexicon video. Extracted key-poses are then sorted according to intersecting point of Gaussian distributions. Lastly, extracted key-poses are compared with pre-designed sign language handshape models to configure handshape. Our system is tested on total of 1740 lexicon instances from American Sign Language users. Ablation study shows that our system was able to improve upon state-of-the-art pose estimation network.
본 연구는 2D 수어 단어 영상이 입력으로 주어졌을때 3D 수어 손 모양을 생성하는 것을 목표로 한다. 기존 이미지 기반 3D 포즈 추정 방법들은 많은 진보를 이루어 왔다. 하지만 기 존재하는 방법을 바탕으로 바로 수어 손 모양을 추출하기 위해선 여러 한계점이 존재 하며 수어 데이터의 특성을 고려 하여 더욱 효과적인 포즈 추출 방식이 필요한 상황이다. 따라서 기 존재하는 3D 포즈 추정과 더불어 수어의 문법적, 그리고 데이터 특성을 고려하여 3D 포즈를 추출하는 것이 필요하다. 이를 위하여 3D pose estimation 으로 3D 손 모양을 유추하고, 필터랑 기법을 통하여 노이지한 데이터를 필터링 한다. 또한, 수어 단어는 최대 두가지 손 모양만 나올 수 있다는 문법적 특성을 고려하여 Gaussian Mixture Model 을 바탕으로 2개의 key-pose 들을 추정한다. 아울러 두 가우시안 분포의 교점을 찾고, 이를 기준으로 모션 데이터를 시작 모션과 끝 모션으로 나눈다. 또한 유추된 키 포즈를 레퍼런스 손 모델과 대조하여 가장 가까운 손 모델을 추정한다. 최종적으로 수어 사용자들의 이용, 및 평가를 위해 랜더링 하고 그 정확성과 사용성을 평가 하고자 한다.