With the continuing explosion of multimedia information in today's society, searching for information contents of interest is becoming more demanded. Among various media types, visual(i.e.,image and video) data are increasingly popular with Internet users and yet difficult to manipulate due to its data size and representation diversity. The recent multimedia application trend has shown that visual data services for content-based data search and more sophisticated data representation are increasingly demanded by Internet users. Search for images and video fames of interest by specifying contents description and representation requires an accurate metadata modeling scheme and ease-of-use querying mechanism.
Metadata management of visual information poses many interesting and challenging problems. The traditional textual annotation-based approach to describe visual contents faces two major problems, the laborious manual annotation process and the subjectivity of human perception due to the richness of multimedia contents. Perceptual subjectivity and impresise annotation process may cause a highly inaccurate data search and retrieval. To overcome these problems, content-based retreival schemes were proposed in the early 90's. Instead of using manual and textual annotations, they use automatic feature extraction techniques based on color, texture, shape, etc. Despite a variety of researches and developments in this direction, they faces another problem of technical complexity, performance, and non-uniformity. the recently started international metadata standard activity attempts to standardize visual data description schemes to solve the problems. The activities intend to provide a set of internationally standardized metadata description scheme, which describes multimedia contents for indexing and searching in a highly structured manner.
There are two cardinal metadata description standards, Dublin core for the legacy metadata description for textual documents and recently formed MPEG-7 as the new one for multimedia documents. Dublin Core is the most widely accepted information description standard extensively adopted in library science. The standard has the strength in describing bibliographical documents, such as books and reports. The recently established international standard committee, MPEG-7 has been working on a uniform metadata description for non-textual multimedia information. MPEG-7 is a standard for multimedia content description interface. The metadata approach with MPEG-7 allows generally complex and large non-textual documents to be modeled and manipulated by their contents in a uniform and highly structured way. Its uniform description scheme enables interoperability of metadata repository with the current MPEG-7 description scheme reside in its semantic description part, which defines unnecessarily complex and redundant descriptors. For example, 'who' in Annotation DS is textual description of people. Also, 'RealPerson' in Person DS is describing the people.
We propose a new metadata description scheme which employs the well-defined formality of the Dublin Core description to describe the semantic feature part of visual information and the powerful facility of the MPEG-7 description to describe the visual and media feature part of visual information all in the XML/DTD form. It will benefit both Dublin Core users who desire to describe multimedia in their textual documents and MPEG-7 users who want to describe semantic features more formally using Dublin Core structure. For an easy XML/DTD manipulation of complex multimedia document description, we have development a metadata repository system called MRS which provides an easy-of-use user interface as a DTD Editor and dictionary function to generate a uniform construct of multimedia document description according to the proposed scheme.
In this thesis, we report our major contributions on the development of (1) a new description scheme based on MPEG-7 and Dublin Core and (2) a metadata repository system (MRS) as a multimedia content description tool for visual documents. This work has been conducted as a partial development of the Visual Information Repository System (VIRS) which is presently implemented at the Database System Laboratory under the project funding of a university-industry collaboration research program.
오늘날 멀티미디어 정보의 폭발적인 증가로 관심있는 멀티미디어 정보를 찾는 것은 점점 더 어려워지고 있다. 특히, 비주얼 데이터는 멀티미디어 정보 중에서 가장 널리 많은 곳에서 사용되고 있지만 그들 데이터의 크기와 복잡함 때문에 여전히 다루기 어렵다. 최근의 멀티미디어 응용 프로그램의 흐름은 인터넷 사용자를 위한 멀티미디어 정보 서비스는 비주얼 데이터의 내용에 기반한 검색과 좀더 세련된 데이터의 표현을 요구 하고 있다. 또한 특정한 내용에 기반하여 설명되고 표현되어진 비주얼 정보들을 검색하기 위해서는 정확하고, 사용하기 쉬운 질의 방법, 구조 등이 필요하다.
비주얼 정보를 관리하는 것에는 많은 흥미 있고 도전할 만한 문제들이 쌓여 있다. 과거의 텍스트에 기반하여 비주얼 데이터를 조작하는 것에는 두가지의 중요한 문제점이 존재한다. 그 중 하나는 수동적으로 일일이 주석을 다는 힘든 작업과 텍스트 데이터와는 다르게 풍부한 정보를 가진 멀티미디어 데이터의 내용을 표현할 때 그 작업을 수행하는 사람의 주관적인 생각이 들어가는 것이다. 지각에 의한 주관적인 정보와 정확하지 못한 주석은 멀티미디어 데이터를 찾거나 검색할 때 회복하기 어려운 실수의 원인이 될 수 있다. 이런 문제들을 해결하기 위해서 90년대 초에 멀티미디어의 내용에만 기반한 방법이 제안되었다. 수동적인 텍스트 주석을 만드는 작업 대신에 색깔, 질감, 모양 등의 자동적인 특징 추출을 사용하는 방법이다. 그러나 많은 연구와 개발에도 불구하고, 이런 접근 방법은 너무나 복잡하고 성능 측면에서 기술적인 문제 직면하게 되었다. 최근에는 이런 직면한 문제점의 해결책으로 멀티미디어 데이터에 대한 정보를 메타 데이터로 정의하고 이런 메타 데이터네 대한 체계적인 설명 방법을 표준화하기 위한 연구가 진행중이다. 이런 활동들은 멀티미디어를 효과적으로 검색하고 인덱싱 할 수 있는 메타 데이터의 집합을 제공하고자 한다.
이때 까지의 표준화 활동중 가장 중요한 표준화 활동에는 기존의 메타 데이터 표현 방법인 Dublin Core와 최근에 멀티미디어 데이터의 표현에 초점을 맞춘 MPEG-7이 있다. Dublin Core는 기존의 도서관 정보학에서 정보들이 디지털화 되었을 때 이들을 표현하기 위한 방법으로 널리 사용되고 수용되고 있는 정보의 표현 표준이다. 이 표준은 책과 기술적인 문서들과 같은 텍스트 문서를 표헌하는데 장점을 지니고 있다. 최근 형성되니 국제표준회의, MPEG-7은 패턴 매칭 알고리즘 등을 사용해서는 좀처럼 해결의 기미가 보이지 않는 내용 기반 검색을 새로운 시도로 해결하기 위해 단일화된 메타 데이터 표현에 중점을 두고 연구하고 있다. MPEG-7은 'Multimedia Content Description Interface'으로 간단히 표현할 수 있다. MPEG-7의 메타 데이터 접근법에는 데이타 베이스를 이용하여 쉽게 큰 응용 어플리케이션을 모델링하고 조작할 수 있게 한다. 더 나아가 멀티미디어 데이터에 대한 표준화된 표현방법은 메타 데이터들의 저장 시스템들 사이의 상호 운용성을 가능하게 한다. MPEG-7 표준은 이미지, 비디오, 오디오와 같은 멀티미디어 내용을 기술하는데는 큰 표현능력을 가지고 있지만 멀티미디어 데이터의 의미적인 정보를 표현하는데는 현재 그 표현 방법이 복잡하고 중복되는 기술자들이 존재 한다. 예를 들어 Annotation DS의 Who라는 기술자는 멀티미디어 데이터 안의 사람 정보에 대한 텍스트 기술이고, 또한 Person DS의 RealPreson이라는 기술자 역시 사람을 표현하기 위한 것이다.
본 연구에서는 Dublin Core와 MPEG-7 표준을 이용하여 새로운 메타 데이터 표현 방법을 제안하고, 이 새로운 메타 데이터 표현 방법을 XML의 DTD형태로 표현하고자 한다. 이런 방법은 기존의 Dublin Core를 사용하던 사람에게는 그 들의 텍스트 문서를 표현하던 방법에서 크게 다르지 않게 멀티미디어 데이터를 표현할 수 있다. 또한 제안된 표현 방법을 기술하는 언어인 XML의 DTD를 보다 작성하기 쉽게 사용의 편리성을 제공하는 Metadata Repository System(MRS)와 사용자 인터페이스로 DTD Editor를 구현하였다. Metadata Repository System (MRS)는 제안된 표현 방법의 Dublin Core 와 MPEG-7의 기술자들을 효과적으로 관리하고 구조와 하기 위한 사전과도 같은 기능을 제공한다. MRS는 Visual Information Repository System (VRS)의 하나의 틀로 사용될 것이다.
본 연구에서는 (1) MPEG-7와 Dublin Core에 기반한 새로운 표현방법을 제안하고, (2) Metadata Repository System (MRS)을 개발한 것이 중요한 부분이다. 이런 연구들은 산학 연구의 일환으로 Visual Information Repository System (VRS)의 일부분을 구현한 것이다.