The Internet has been rapidly “deepened” by the prevalence of online databases. With the potentially unlimited information hidden behind their query interfaces, this “Deep Web” of searchable databases is clearly an important frontier for data access. Bioinformatics community has witnessed the growing of deep web and research conducted upon it. Several researches have started upon this relatively unexplored frontier, meta-searcher, database content detection, HTML search form analysis and database raw file merging. Each of them has their own inherited advantages and disadvantages. Based on our new finding of Keyword Networks, we proposed a novel approach to index heterogeneous Deep Web resources. Inheriting form concept of “Six Degrees of Separation”, our implementation has shown its prominent ability of retrieving textual documents from domain specific Deep Web resources. It is capable of integrating state of art deep web contents with minimum human interference and easy to implement on current search engine systems.
최근 인터넷을 통해 접근할 수 있는 온라인 데이터베이스가 급격히 증가하고 있다. 각 데이터베이스에 들어 있는 정보들은 웹사이트에서 제공하는 질의 인터페이스를 통해서만 접근할 수 있으며, 질의를 통해 동적으로 생성되는 웹페이지를 "Deep web"혹은 "Hidden web"이라 한다. "Deep web"에 담겨있는 엄청난 양의 정보는 매우 유용하여, 이에 대한 효율적인 정보 접근 방법에 대한 연구가 진행되고 있다. 특히, 생물학에 관련된 온라인 데이터베이스의 급증으로, 생물정보학자들은 이에 대해 관심을 갖고 연구를 수행하고 있다. 이 문제에 대한 기존의 접근 방법은 메타 검색, 데이터베이스의 내용 감지, HTML 검색 폼 분석 등이 있으며, 각각의 장점과 단점을 가지고 있다.
본 연구에서는 키워드 네트웍에 기반해 서로 다른 "Deep web" 정보들에 대해 새로운 인덱스 기법을 제안한다. 새로운 인덱스 기법은 특정 도메인에 대한 "Deep web" 정보, 특히 문서 검색에 현저히 좋은 결과를 보였으며, 다른 "Deep web" 검색 기술에 쉽게 응용될 수 있을 것이다.