We proposes an ecient method to match a human template model to a corresponding human object in a monocular video to estimate visually pleasing depths of the human at every frame. Instead of trying to match the silhouettes between the projection of a 3D template of a human and the corresponding 2D object, we propagate the partially retrieved depth toward the boundary of the object. Our system matches a given 3D template model to a person in a monocular video with a small number of user inputs.
We render depth maps from the matched results. We overlay the depth maps and corresponding scenes in the video. The human object is divided into several regions based on the color information. Depth pixels corresponding to each segment are seprately propagated to ensure the detail of the results. We compared the result and depth maps painted by experienced artists. The comparison shows our method produces viable depth maps of humans in monocular videos effciently.
단안 영상에서 인간과 같은 복잡한 형태의 오브젝트의 깊이 정보를 생성하는 것은 쉬운일이 아니다. 학위논문에서는 단안 영상에 나타난 인간 오브젝트의 고품질 깊이정보를 생성하는 새로운 방법을 제안한다. 3D 템플릿 모델의 프로젝션과 인간 오브젝트의 실루엣을 직접적으로 매칭하는 대신, 우리는 템플릿 모델 매칭을 통하여 일차적으로 얻어낸 깊이 정보를 인간 오브젝트의 가장자리에 확산한다. 주어진 3D 템플릿 모델은 적은 수의 사용자 입력을 토대로 인간 오브젝트의 포즈에 매칭이 되고 그 결과에서 깊이 정보를 렌더링한다. 얻어낸 깊이 정보는 그와 해당하는 원본 장면과 겹쳐지며, 인간 오브젝트는 색상 정보에 따라서 몇 개의 구역으로 나누어진다. 각 구역에 가깝다고 여겨지는 깊이 픽셀들은 디테일을 보장하기 위하여 각 구역의 경계션까지 독립적으로 확산된다. 우리는 숙련된 아티스트들의 수작업 결과물과 우리의 방법을 적용한 결과물을 비교함으로서 동등한 수준의 결과물을 효과적으로 생성한다는 것을 보였다.