Overlay text brings important semantic clues in video content analysis such as video information retrieval and summarization, since the content of the scene or the editor's intention can be well represented by using inserted text. Most of the previous approaches to extracting overlay text from videos are based on low-level features, such as edge, color, and texture information. However, existing methods experience difficulties in handling texts with various contrasts or inserted in a complex background. In this thesis, we propose a novel framework to detect and extract the overlay text from the video scene. Based on our observation that there exist transient colors between inserted text and its adjacent background, a transition map is first generated. Then candidate regions are extracted by a reshaping method and the overlay text regions are determined based on the occurrence of overlay text in each candidate. The detected overlay text regions are localized accurately using the projection of overlay text pixels in the transition map and the text extraction is finally conducted. The proposed method is robust to different character size, position, contrast, and color. It is also language independent. Overlay text region update between frames is also employed to reduce the processing time. Experiments are performed on diverse videos to confirm the efficiency of the proposed method.
최근 영상 편집 기술의 발달과 더불어 시청자의 이해를 돕기 위해 인위적으로 자막을 삽입하는 경우가 늘고 있다. 인위적으로 삽입된 자막은 해당 장면의 내용이나 편집자의 의도를 잘 표현하고 있기 때문에 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에 유용하다. 기존의 자막 영역 추출 방법은 에지(edge), 색상(color), 텍스처(texture) 정보와 같은 하위 계층(low-level) 특징을 기반으로 하기 때문에 다양한 필체나 밝기 대비를 가진 자막이 동시에 나타나거나 복잡한 배경에 포함된 자막 영역의 경우 잘 검출하지 못한다. 이에 본 논문에서는 기존의 방법과는 전혀 다른 천이 영역 기반의 새로운 영상 내 삽입 자막 검출 및 추출 기법을 제안하고자 한다. 먼저, 영상 내 삽입된 자막 주변은 시청자가 쉽게 인식할 수 있도록 시각적 효과를 위해 해당 글자와 다른 색으로 표현된다는 관찰 결과를 바탕으로 천이 지도를 생성한다. 생성된 천이 지도를 이용하여 후보 영역을 추출하고 후보 영역 내의 천이 픽셀 밀도와 천이 픽셀 주변의 텍스처 패턴을 이용하여 추출된 후보 영역 중에서 삽입된 자막 영역을 결정한다. 삽입 자막 영역 내 천이 픽셀에 대한 수평, 수직 방향으로의 사상(projection)을 통해 삽입 자막 영역 내 불필요한 배경을 제거 한 후 삽입 자막 추출을 수행한다. 제안하는 알고리즘은 글자 색, 크기, 위치, 필체, 밝기 대비에 관계 없이 적용이 가능하며, 다양한 언어에 관계없이 뛰어난 성능을 보인다. 또한, 프레임간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.