In this thesis, two major problems are pointed out through the structural analysis of continuous sign language recognition (CSLR) datasets: (1) Since constructing CSLR dataset is expensive, additional annotations (pose, optical flow and frame-level gloss labels, etc.) are difficult. (2) Various background environments are not considered in the dataset construction process. From the first problem, we propose a lightweight backbone network that can independently extract non-manual (gaze direction, facial expressions and lip patterns) and manual (hand shape, movement) expression features without any additional annotations, and a method to generate more accurate pseudo-labels by combining the model output with the ground truth gloss sequence. In addition, from the second issue, we first construct a sign language dataset including various background scenes and further propose a disentanglement module to effectively
distinguish a signer and a background from a sign video. We verify that the proposed methodologies have a great effect on overcoming the limitations caused by the existing CSLR dataset based on various quantitative and qualitative evaluations.
본 논문에서는 연속 수어 인식 데이터셋의 구조적 분석을 통해 두 가지 주요 문제점을 지적한다: (1) 연속 수어 인식 데이터셋을 구성하는 데 비용이 많이 들기 때문에 추가적인 주석(자세, 광학 흐름 및 프레임 레벨 수도 라벨 등)이 어렵다. (2) 데이터셋 구축 과정에서 다양한 배경 환경은 고려하지 않는다. 첫 번째 문제로부터, 우리는 추가적인 어노테이션 없이 비수지 (시선, 표정, 입술 패턴), 수지(손 모양, 움직임) 표현 피쳐를 독립적으로 추출하는 경량 백본 네트워크와 모델 아웃풋과 정답 글로스 시퀀스를 결합하여 보다 정확한 수도 라벨을 만드는 방법을 제안한다. 추가적으로, 두 번째 문제로부터, 우리는 처음으로 다양한 배경 장면을 포함한 수어 데이터셋을 구축하고, 나아가 효과적으로 수어 비디오로부터 수어자와 배경을 구분하는 disentanglement 모듈을 제안한다. 우리는 다양한 정량적, 정성적 평가를 기반으로 제안된 방법론들이 기존의 연속 수어 인식 데이터셋으로 인한 한계를 극복하는데 큰 효과가 있음을 검증했다.