In the world of Web pages, there are oceans of documents in natural language texts and tables. To extract rules from Web pages and maintain consistency between them, we have developed the framework of XRML (eXtensible Rule Markup Language). XRML allows the identification of rules on Web pages and generates the identified rules automatically. For this purpose, we have designed the Rule Identification Markup Language (RIML) that is similar to the formal Rule Structure Markup Language (RSML), both as parts of XRML. RIML is designed to identify rules not only from texts, but also from tables. The beauty of using RIML is that the rules can be identified on the Web pages and automatically transformed to the formal rules in RSML syntax. While designing RIML, we considered the features of sharing variables and values, omitted terms, and synonyms. Handling them in RIML is beneficial because they may be coded once and changed in the same place, automatically generating its corresponding RSML rules.
We have conducted an experiment to evaluate the potential benefit of the XRML approach with the real world Web pages of Amazon.com, BarnesandNoble.com, and Powells.com. We found that 97.7% of the rules can be detected on the Web pages, and the completeness of generated rules is 89.7%. This is good proof that XRML can benefit the extraction and maintenance of rules from Web pages while building expert systems in the Semantic Web environment.
오늘날 자원의 보고라 할 수 있는 웹에는 자연어로 표현된 텍스트와 테이블들로 구성된 무수히 많은 문서들이 존재하고 있다. 이러한 웹문서들로부터 규칙을 습득하고 습득된 규칙과 웹문서간의 일관성을 유지하는 방법론이 개발된다면, 지금의 웹을 지능화된 웹으로 발전시킬 수 있는 원동력이 될 것이다. 이러한 목적을 달성하기 위해, 본 논문에서는 확장형 규칙 표식 언어 (eXtensible Rule Markup Language, XRML) 체계를 개발하였다. XRML은 웹페이지에 내재되어 있는 규칙을 식별하여 자동으로 정형화된 규칙을 생성할 수 있도록 지원하는 규칙 식별 표식 언어 (Rule Identification Markup Language, RIML)와 구조화된 규칙 표현을 위한 규칙 구조 표식 언어 (Rule Structure Markup Language)로 구성된다. 특히, RIML은 RSML과 유사한 형태로서 HTML안에 내재되어 있는 규칙을 HTML 문서에 직접 명시할 수 있도록 설계되었기 때문에 테이블이나 텍스트 형태로 표현된 규칙을 효율적으로 식별할 수 있도록 지원한다. 또한, 이렇게 식별된 규칙은 자동으로 정형화된 RSML 문서로 변환될 수 있다. 즉, RIML의 미학은 RIML을 통해 웹페이지에 있는 규칙들이 식별되고 이 식별된 규칙은 자동으로 정형화된 RSML의 문법으로 표현된 규칙으로 변환될 수 있다는 것이다.
본 논문에서는 RIML의 설계시 웹페이지로부터 규칙을 식별하는 과정에서 발생하는 공유되는 변수 (variables) 및 값 (values), 생략된 어구, 동의어와 같은 몇가지 중요한 현상들을 발견하고 이를 해결하고자 하였다. 즉, RIML을 통해 식별된 하나의 규칙 구성요소가 RSML에서는 여러 번 반복적으로 사용되어 규칙을 코딩하는 데 드는 노력을 줄일 수 있고, 생략된 어구나 동의어를 식별함으로써 웹페지이와 규칙들 사이에 일관성을 유지하는 데 도움을 줄 수 있다. 따라서, RIML에서 이들을 다루는 것은 규칙을 습득하는 과정에서 매우 유용하다고 할 수 있을 것이다.
제안된 XRML 접근 방법의 성능을 측정하고자, 본 논문에서는 3개의 대표적인 온라인 서점인 Amazon.com, BarnesandNoble.com, Powells.com의 실제 웹페이지들로부터 배송 및 환불과 관련된 규칙을 습득하여 XRML의 효과를 측정하는 실험을 수행하였다. 이 실험을 통해 습득된 규칙들은 실제로 ConsiderD라는 가격비교쇼핑몰을 구현하는데 이용되었다. ConsiderD 가격비교쇼핑몰과 다른 일반 가격비교 쇼핑몰과의 가장 큰 차이점은 웹기반 전문가시스템을 통해 고객이 원하는 배송방법 및 배송장소에 따른 정확한 배송가격을 산정하여 물품의 가격에 배송가격까지 포함한 정확한 가격비교를 제공해 줄 수 있다는 점이다.
실험 결과를 보면, 웹페이지로부터 규칙은 97.7%의 매우 높은 정확성을 가지고 습득되었으며, 생성된 규칙의 완전성은 89.7%로 측정되었다. 이러한 실험결과는 XRML이 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹페이지로부터 규칙을 추출할 때 매우 효율적인 도구가 될 수 있으며, 또한 추출된 규칙과 웹페이지간의 일관성이 효과적으로 유지될 수 있다는 것을 보여주는 증거라고 할 수 있다.
본 논문에서는 XRML이 실제 다양한 응용들에서 활용될 수 있음을 보여주기 위하여, 전자상거래, 지식관리시스템, 워크플로우 시스템, agent 기반의 전자상거래 등의 분야에서 적용되는 구조를 제안하였다. 이로써, XRML이 차세대 지능형 웹으로 발전하기 위한 중요한 도구가 될 수 있음을 입증하였다.