Metadata is data about data. It means that metadata describes the property of data generally. In other words, metadata provide information related to the raw data such as video, audio, text and so on. By etadata, we can find information not only easily and fast but also based on semantics and non-topical attributes. These are the reasons why various metadata are created and studied. To retrieve information based on metadata fields effectively, however, we should know the characteristics and structure of metadata. Commonly, most users are not familiar with constructing a query for metadata retrieval. Therefore, it is necessary to translate a user information need to a query for metadata automatically. The amount of information in metadata is usually less than like in the full data like text. If a user wants information not described in a metadata field, the user can never find relevant information. For instance, when we cannot find relevant information only by searching the metadata, there is a chance that it can be found in the text.
In this paper, we suggest a hybrid IR model using metadata and text which can provide users with additional relevant documents by searching the metadata fields and text fields. User queries are translated into structured or unstructured queries automatically to search the metadata fields and text fields simultaneously, even though the user does not understand what metadata is.
메타데이터는 데이터를 설명하는 데이터이다. 문서 정보에 있어서 메타데이터는 문서를 설명하는 역할을 한다. 메타데이터는 인위적으로 만들어진 정보이므로 문서 자체가 가진 정보보다 간결하고 명확하다. 이러한 메타데이터의 특징으로 인하여 사용자가 메타데이터의 특성을 정확하게 이해하고 질의하는 경우에는 사용자 요구에 적합한 정보를 얻을 수 있지만, 사용자가 그 특성을 정확히 이해하지 못한 경우에는 전혀 정보를 얻지 못하는 경우도 발생한다. 따라서 사용자가 메타데이터의 특성을 정확히 이해하지 못하는 경우에도 사용자가 원하는 정보를 찾을 수 있는 방안을 마련해야 한다.
또한 메타데이터는 텍스트가 가진 정보보다 한정된 정보를 담고 있다. 현재 대부분의 메타데이터 검색엔진은 메타데이터만을 검색 대상으로 하기 때문에 질의에 해당하는 정보가 메타데이터에 포함되어 있지 않다면 검색을 수행하지 못한다. 따라서 메타데이터만을 검색 대상으로 하지 않고 텍스트 정보도 검색 대상에 포함한다면 보다 많은 적합한 정보를 사용자에게 제공해 줄 수 있을 것이다.
본 고에서는 사용자가 메타데이터 구조를 이해하지 못하여도 사용자의 질의를 메타데이터 구조에 적합하도록 자동적으로 변환하는 모델을 제안하고 있다. 또한 메타데이터 정보뿐 아니라 텍스트에 대한 정보도 검색 대상에 포함하여 동시에 메타데이터와 텍스트를 검색하고 결과를 차후에 적절히 통합하는 방안을 제안하고 있다.
실험을 통하여 본 고에서 제안하는 모델이 메타데이터 검색의 장점과 텍스트 검색의 장점을 모두 가지고 있음을 확인하였다. 그러나 아직까지 의미를 기반으로 하는 질의어 확장이나 필드 확장은 고려하지 못했다. 이를 위하여서는 온톨로지의 구축이 필수적이라 할 수 있다. 온톨로지를 구축하여 필드나 질의어를 의미적으로 확장한다면 보다 훌륭한 결과를 얻을 수 있을 것이라 기대되며 이는 차후 과제로 남겨둔다.