(A) queriable XML compression technique using a type inference engine = 타입 추론 엔진을 이용한 질의 가능 XML 압축 기법
서명 / 저자 (A) queriable XML compression technique using a type inference engine = 타입 추론 엔진을 이용한 질의 가능 XML 압축 기법 / Myung-Jae Park.
발행사항 [대전 : 한국과학기술원, 2003].
학술문화관(문화관) 보존서고

MCS 03017

Like HTML, many XML documents are resident on native file systems. Since XML data is irregular and verbose, the disk space and the network bandwidth are wasted compared to those of regularly structured data. To overcome the verbosity problem of XML data, the research on compressors for XML data has been conducted. However, some XML compressors do not support querying compressed data, while other XML compressors which support querying compressed data make the assumption for the total number of distinct tags in XML data in order to compress them and blindly encode data values using predefined encoding methods without considering the types of data values. Thus, the query performance on compressed XML data is degraded. This research proposes an XML compression technique which supports direct and efficient evaluations of queries on compressed XML data. This XML compression technique basically adopts an encoding method, called dictionary encoding, in order to encode each tag of XML data into a unique integer value, and applies diverse encoding methods for encoding data values depending on the inferred types of data values. Those inferred types are acquired by the type inference engine which distinguishes the appropriate types of data values of each element and attribute. Furthermore, this XML compression technique does not make any assumptions for the total number of distinct tags in XML data. This XML compression technique is implemented as an XML compressor, named XTIE, to evaluate the performance of this XML compression technique. Experimental results with real-life data sets show that XTIE achieves significant improvements on query performance for compressed XML data and reasonable compression ratios compared to other existing XML compressors. On the average, the query performance of XTIE is about 1.4 times better than that of an existing XML compressor and the compression ratio of XTIE is about 80%.

인터넷을 통하여 보편적으로 널리 사용되고 있는 HTML (HyperText Markup Language) 은 현재 데이터베이스 시스템과 같은 특수한 형태의 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 이와 마찬가지로, 최근에 인터넷 상에서의 데이터 교환 및 표현의 표준으로 부각되고 있는 XML (eXtensible Markup Language) 역시 파일 시스템을 통하여 저장되는 경우가 현저하다. 하지만, XML 문서가 지니는 비정규적인 구조와 장황성 (verbosity) 때문에, 디스크의 공간이나 네트워크 상의 대역폭 (bandwidth) 이 정규적인 구조를 지니는 데이터에 비해서 비효율적이다. 이러한 XML 문서의 비효율적인 문제를 해결하기 위해서, XML 문서를 압축하는 기법에 관한 연구가 진행이 되었다. 하지만, 최근에 연구된 XML 압축 기법들을 살펴보면, 압축된 XML 문서에 대한 질의를 지원하지 않거나 질의를 지원하더라도 XML 문서 내의 데이터들의 특성을 고려하지 않은 채 단순히 기존의 압축 방법들을 적용시킴으로써 XML 문서를 압축하게 된다. XML 문서 상에 나타나는 데이터들의 특성들을 고려하지 않은 상태에서 압축을 수행함에 따라, 압축된 XML 문서에 대한 질의 성능은 저하되었다. 따라서, 본 연구에서는 압축된 XML 문서에 효율적인 질의를 지원하는 XML 압축 기법을 제안하고자 한다. 본 연구에서는, XML 문서의 각 태그 (tag) 를 하나의 정수로 변환하는 사전 압축 (dictionary encoding) 방법을 사용하여 압축하고자 하며, 태그 별로 데이터들의 타입 (type) 을 추출하여 추출된 타입에 적절한 압축 방법을 사용하여 데이터들을 압축하고자 한다. 여기서, 데이터들의 타입들은 본 연구에서 제안하는 타입 추론 엔진 (Type Inference Engine) 에 의해서 추출되어 진다. 또한, 본 연구에서 제안하는 XML 압축 기법은 압축하는 XML 문서가 포함하는 태그의 수에 관계 없이 항상 압축이 가능하다. 본 연구를 통해서 구현된 XML 압축기인 XTIE (XML compressor using Type Inference Engine) 의 압축 및 질의 성능은 실생활에 사용되고 있는 XML 문서들을 기반으로 평가하였다. 성능 평가 결과를 살펴 보면, XTIE는 압축된 XML 문서에 대한 질의 성능을 상당히 향상시켰으며, 다른 XML 압축 기법들에 의한 압축비 (compression ratio) 와 비교하여 볼 때 적절한 압축비를 보이고 있다. 평균적으로, XTIE는 다른 XML 압축 기법보다 1.4 배 정도 빠른 질의 성능을 보이며, 압축에 사용된 실재 XML 문서의 크기를 80% 줄이는 효과를 얻을 수 있었다.


청구기호 {MCS 03017
형태사항 vi, 51 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박명제
지도교수의 영문표기 : Chin-Wan Chung
지도교수의 한글표기 : 정진완
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 49-51





