서지주요정보
3D hand motion estimation from a single motion blurred RGB image = 모션 블러 RGB 이미지로부터 3D 손 동작 추정
서명 / 저자 3D hand motion estimation from a single motion blurred RGB image = 모션 블러 RGB 이미지로부터 3D 손 동작 추정 / Taewook Ha.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041199

소장위치/청구기호

학술문화관(문화관)B1층 보존서고

MGCT 23022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Hand Mesh Estimator (HME) has been studied and shown to have high performance. However, although previous HMEs have shown high performance for sharp hand images, their performance is poor for motion blur due to fast movements. Therefore, it is necessary to study HMEs that are robust to motion blur. The main problem in the research of motion blur robust HME is the lack of datasets that provide real motion blur images. Therefore, in this study, we constructed a dataset consisting of real motion blur images. The annotation of the dataset was achieved by using an Adaptive Graph Neural Network (A-GCN) based network, which was trained with a sharp image dataset and a multiview camera environment. Furthermore, a Motion Blur-to-Motion Network (MBMNet) with a channel attention module, a Convolutional LSTM (ConvLSTM), and an A-GCN HME is built and trained with the dataset to predict successive hand motions from a single motion blur image. We show how motion blur can be used as useful information instead of noise.

기존의 이미지로 부터 손 3D 모델을 예측하는 HME(Hand Mesh Estimator)는 현재까지 다양한 연구 가 이루어 지고, 높은 성능을 보여왔다. 하지만, 이전의 HME는 선명한 손 이미지에 대해서는 높은 성능을 보여주었지만 손이 빠르게 움직여 모션 블러(motion blur)가 생긴 손 이미지에 대해서는 성능이 떨어진다. 따라서, 모션 블러 이미지에 대해서도 강건한 HME의 연구가 필요하다. 모션 블러 이미지에 강건한 HME 연구에서 가장 큰 문제는 실제 모션 블러 이미지와 그에 대응하는 주석을 제공하는 데이터셋의 부재라고 할 수 있다. 따라서, 해당 연구에서는 여러 대의 카메라를 이용하여 모션 블러가 존재하는 손 이미지를 취득하여 실제 모션 블러 이미지로 구성된 데이터셋을 구성했다. 데이터셋의 주석은 선명한 이미지 데이터셋으로 학습시킨 A-GCN(Adaptive Graph Neural Network 기반의 네트워크와 다시점 카메라 환경을 이용하여 얻을 수 있었다. 그리고, channel attention module, ConvLSTM(Convolution LSTM), 그리고 A-GCN으로 구성된 MBMNet(Motion Blur-to-Motion Network)을 구축하고, 수집한 데이터셋으로 학습시켜 한 장의 모션 블러 이미지에서 연속된 손 동작을 예측하는 네트워크를 제안한다. 본 네트워크를 이용해 모션 블러를 노이즈가 아닌 유용한 정보로서 사용할 수 있는 방법을 제시한다.

서지기타정보

서지기타정보
청구기호 {MGCT 23022
형태사항 iii, 31 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 하태욱
지도교수의 영문표기 : Woontack Woo
지도교수의 한글표기 : 우운택
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 25-30
주제 Hand pose estimation
Hand mesh estimation
Motion blur
Neural network
손 자세 추정
손 메쉬 추정
모션 블러
뉴럴 네트워크
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서

Erroneous hand tracking due to motion blur. (a) is estimation results of MediaPipe [62] Leftis the estimated 2D hand pose ofasharpimageand rightisthe estimated 2D hand pose ofa motion blurred image. It shows the joints are misaligned due to motion blur, although these are interpretations ofthe same pose. (b) is estimation results ofMeshGraphomer 63] Leftis theestimated 3D hand mesh ofa sharpimage,

Multi-view setup for data gathering. mas, sub1, and sub2 camera capture sharp images with short exposure time. blur camera captures a motion-blurred image withalongexposure time. They are all synchronized using a function generator in order to capture hand motion at the same time.

Effect of real and Synthetic motion blur data on deblurring task.

Sample of captured data. (a) is captured motion-blurred image. (b) is a series ofsharl mages taken while the motion blur image is being captured. (c) is 3D hand joint groud-truth of eacl 1 20 L. ,1, ] at. .f f..

Real-world motion blur data and synthetic motion blur data. (a) is real-world motion blur data captured with alongexposure time. (b)is synthetic motion blur data generated byintegrating sharp images captured with a short exposure time.

Results ofadeblurring network trained with different trainingdata. (a)is inputreal-world motion blur data. (b) is a sharp GT image. (c) and (d) are the results ofa deblurring network trained with synthetic data and real data, respectively

Overview oftheproposed MBMNet. Itrecurrently estimates the hand pose ofeach frame by ConvLSTM with channel attention module and pretrained two-stage A-GCN hand mesh reconstruction module. The encoder for extracting features from motion-blurred images is split into two to extract mid-level feature maps and high-level feature maps.

Structure ofCAttConvLSTM It consists ofchannel attention and ConvLSTM. The global feature map from the global feature encoder is fed into channel attention to weight channels that have informative features for hand estimation. The weighted feature maps are converted into local feature maps offrame tby ConvLSTM, considering feature maps from the estimation ofthe previous frame.

The relationship between ground truth coordinates and predicted coordinates of the frame. Thedistancebetween thejointor vertex moves and the angle between the ground truthhand's translation vector and the predicted hand's translation vector is calculated for temporal loss.

Visual results of MBMNet for three frames of hand motion. (a) are successful results of MBMNet, and (b) are failure cases ofMBMNet.

The number of trainable parameters in networks

Effect ofreal and Synthetic motion blur data on hand motion estimation task

Results of ablation studies.