서지주요정보
Temporal procrustes alignment framework for 3D human pose and shape estimation from video = 비디오를 통한 3D 인간 자세 및 형태 추정을 위한 시계열 프로크루스테스 정렬 프레임워크
서명 / 저자 Temporal procrustes alignment framework for 3D human pose and shape estimation from video = 비디오를 통한 3D 인간 자세 및 형태 추정을 위한 시계열 프로크루스테스 정렬 프레임워크 / Ji Woo Hong.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039755

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MRE 22013

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation considers the task of model-based 3D human pose and shape estimation from 2D monocular RGB video. Human pose and shape estimation takes a monocular image containing a person as input and returns that person’s joint position and body shapes. To obtain model-based 3D results, depth estimation is added to the 2D joint location estimation, which is used with the body shapes to generate 3D human mesh model parameters. For the case where the input is a video, the above process is done for each image frame of a video. Although the estimated pose and shape of a person may seem accurate for each frame of image, simply listing the estimated results of the images does not give smooth results for they show jitter along the predictions due to the uncertainty of the joint positions. To solve this problem, previous methods have made progress by improving networks to consider the temporal consistency of human motions in sequential frames by supervising the average acceleration of joints for each frame. After maintaining temporal consistency, however, geometric misalignments within the sequence of joints are observed. Geometric misalignment refers to the steady deviation between the geometric path drawn by a sequence of predicted joints and that of ground-truth joints. To this end, we propose Temporal Procrustes Alignment (TPA) framework, which is a model-agnostic framework that mitigates geometric misalignments by performing group-wise sequential learning of every joint’s movement paths. While previous methods rely entirely on per-frame supervision for accuracy, our framework can supervise sequential accuracy by performing Procrustes Analysis to the sequence of predicted joints. Experiments show that TPA framework mitigates the misalignment of the results without damaging their temporal consistency, advancing the network to mostly exceed the previous state-of-the-art performances on benchmark datasets in both per-frame accuracy and video smoothness metric.

본 논문은 2D 단안 RGB 비디오를 통한 신체모델 기반의 3D 인간 자세 및 형태 추정 기법을 다룬다. 인간의 자세 및 형태 추정은 사람을 포함하는 이미지를 입력으로 받아 그 사람의 관절 위치와 체형 신체모델을 출력하는 것이다. 신체모델 기반의 3D 결과물을 얻기 위해서는 2D 관절 위치 추정에 깊이 추정이 추가되며, 이는 체형과 함께 3D 인간 메시(mesh) 모델 매개 변수를 생성하는 데 사용된다. 입력이 비디오인 경우, 상기 과정이 비디오의 각 이미지 프레임에 대해 수행된다. 이때 추정된 자세와 형태는 이미지 프레임 단위에서는 비교적 정확해 보일 수 있지만, 이를 시간순으로 단순 나열하면 관절 위치의 불확실성으로 인한 전반적인 신체와 자세의 흔들림 때문에 부드러운 비디오 결과를 제공하지 못하게 된다. 이 문제를 해결하기 위한 이전 방법들은 각 프레임에서의 관절들의 평균 가속도를 지도하여 순차적인 이미지들 속에서의 인간의 움직임의 시간적 일관성을 고려하도록 네트워크를 개선하여 성능을 향상시켰다. 하지만 시간적 일관성을 유지한 결과 물에서 관절 위치들의 움직임 동선에 기하학적 오정렬이 드러났다. 여기에서 기하학적 오정렬이란, 예측된 관절 위치의 움직임 동선에 의해 그려진 기하학적 경로와 실측 관절 위치의 움직임 동선 경로 사이의 일정한 편차를 의미한다. 이러한 기하학적 오정렬을 완화하기 위한, 모든 자세 추정 모델에 적용 가능한, 방법으로 모든 관절의 움직임 동선에 대한 그룹별 학습을 수행하는 시계열 프로크루스테스 정렬 (Temporal Procrustes Alignment) 프레임워크를 제안한다. 이전 방법들은 자세 예측의 정확성을 이미지 프레임 단위의 지도에만 전적으로 의존하지만, 본 프레임워크는 순차적으로 예측된 관절 위치의 움직임 동선에 프로크루스테스 분 석을 수행하여 시계열 단위의 그룹 정확도 또한 함께 지도한다. 실험에 따르면 TPA 프레임워크는 시간적 일관성을 훼손하지 않고 예측 결과의 오정렬을 완화함으로써 기존의 네트워크가 벤치마크 데이터셋들에서 프레임별 정확도 및 비디오 부드러움에서 이전의 최고 성능들을 대부분 뛰어넘도록 개선한다.

서지기타정보

서지기타정보
청구기호 {MRE 22013
형태사항 v, 40 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍지우
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 31-38
주제 Human Pose Estimation from Video
3D Human Pose and Shape Estimation
Procrustes Analysis
비디오를 통한 인간 자세 추정
3D 인간 자세 및 형태 추정
프로크루스테스 분석
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서