Human pose estimation from monocular RGB image is the task localizing human joint keypoints in the person included image. It has been actively studied area in computer vision and received attention because of its various potential applications such as gesture recognition, Human Computer Interface (HCI), automatic video tagging, and surveillance, etc. However, despite of previous researches over the past few decades, estimating human pose in real-time from unconstrained image is still a challenging problem. In this thesis, we proposed several approaches to overcome the problems of previous algorithms for real-time human pose estimation. Suggested methods contain modification on previous deep learning approach model, DeepPose [1], architectural change on model, changing from linear regression to probability distribution estimation problem, and introducing the semi-supervised learning scheme. By the experiment, we show that our methods have beneficial to the previous DeepPose model without cascade steps. Also, our model has advantage that it could be applied to any other deep learning based model as well. From the future work, we will focus on developing the semi-supervised training method more, and combining spatial constraints in integrated neural network model.
사람 자세 추정 문제는 2D RGB 영상으로부터 영상에 포함된 사람의 특정 관절의 위치를 검출하는 문제이다. 사람 자세 추정 문제는 인간-컴퓨터 상호작용, 자동 비디오 분류, 감시시스템 등 다양한 적용분야들 덕분에 다양한 컴퓨터 비전 문제 중에서도 활발히 연구되는 분야이다. 하지만, 지난 수십년간의 많은 연구에도 불구하고, 임의의 영상에서 실시간으로 사람의 자세를 추정하는 문제는 아직도 어려운 문제이다.실시간 사람 자세 추정이 가능하도록 하기 위하여, 우리는 이 학위 논문에서 기존 알고리즘의 단점을 극복할 수 있는 방법을 제시하였다. 제시된 방법들은 기존의 딥러닝을 이용한 모델 (딥포즈)에서 선형 회귀대신 확률 분포 추론 및 준 지도학습을 사용한 모델로 변경한 모델이다. 실험을 통해 우리의 모델이 반복적인 자세추정 단계를 적용하지 않은 딥포즈 모델에 비해 성능이 좋은 것을 확인하였다. 또한, 이 학위논문에서 제시한 방법은 다른 딥러닝 기반 모델들에도 적용이 가능하다는 것에 장점이 있다. 앞으로의 연구 과제로, 우리는 좀 더 효과적인 준 지도학습 방법과 사람 자세의 공간적인 제약 조건을 신경망 모델에 통합시키는 연구를 수행할 것이다.