서지주요정보
Interpretation of natural language queries for effective data exploration over heterogeneous databases: applications to biomedical domain = 이질적인 데이터베이스에서의 효과적 데이터 탐색을 위한 자연언어질의 해석: 생물의료 분야에의 적용
서명 / 저자 Interpretation of natural language queries for effective data exploration over heterogeneous databases: applications to biomedical domain = 이질적인 데이터베이스에서의 효과적 데이터 탐색을 위한 자연언어질의 해석: 생물의료 분야에의 적용 / Ho-Dong Lee.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019752

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 08009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Data exploration is an essential process for discovering novel knowledge in scientific researches. However, it is difficult for field experts to find out the target data only by exploration, especially when the data are scattered over multiple and heterogeneous databases. Since such data are usually associated with one another, there may be appropriate sequences of searches that the field experts can use for queries to reach the target data. In order to help such data exploration, conventional database interfaces provide useful tools for querying in keywords or structured forms. However, we argue that they are inadequate to express the queries for sequences of searches in multiple databases which embody diverse relations among their data. In order to describe such queries in a convenient and expressive manner, we propose to use natural language queries (NLQs) to interact with the databases. Such a database interface shall automatically interpret NLQs into formal language queries (FLQs) that are in turn composed of small FLQs for different databases. This task requires us to address the problem of database heterogeneity due to the differences in formal query languages, database structures, and data contents. The dissertation addresses this problem by considering NLQs as terms and syntactic relations, which respectively correspond to data objects and their operations. We utilize SQL-like expressions to coordinate such terms and syntactic relations, resulting in FLQs via a straightforward mapping process. In this work, we present a method that derives the SQL-like expressions from NLQs in a Combinatory Categorial Grammar (CCG) framework, and then translates the expressions into the locations of data objects accessible from our target databases. The method then constructs FLQs for such locations in possible sequences with accounts for data associations. Our method thus provides a fully automated way to locate and retrieve available data from databases. We also show that our method works as a useful interface serving data exploration and integration, which help the experts to discover knowledge from heterogeneous databases. As practical examples, we illustrate biomedical applications: protein-seeking for data exploration, a ubiquitin-protein ligase (E3) database for data integration, and an E3 data mining tool for further data integration.

데이터 탐색은 과학 연구에서 새로운 지식을 발견하기 위한 필수적인 과정이다. 하지만 특히 이질적인 데이터베이스들에 정보들이 산재되어 있을 경우 해당 분야의 전문가들이 단지 데이터 탐색만을 통해 목적한 데이터를 찾기란 매우 어렵다. 이러한 데이터들은 보통 서로 연관되어 있기 때문에 전문가들은 검색의 적절한 연속을 통해 목적한 데이터에 접근할 수 있다. 이런 탐색을 위해 기존의 데이터베이스 인터페이스들은 키워드나 구조적 형식의 질의를 이용한 유용한 도구들을 제공하고 있다. 그러나, 우리는 다양한 관계를 가지는 데이터베이스들에 순차적으로 검색을 하기 위한 질의를 표현하는데 그 도구들이 부적합하다고 주장한다. 이러한 질의를 편리하고 표현력 있게 기술하기 위해, 우리는 자연언어 질의를 이용하여 데이터베이스에 상호 작용하도록 제안한다. 이러한 인터페이스는 자동으로 자연언어 질의를 서로 다른 데이터베이스에 대한 작은 정형언어 질의들의 순차적인 결합으로 이루어지는 질의로 해석한다. 하지만 이 작업을 위해서는 정형질의 언어, 데이터베이스 구조, 데이터 내용의 상이성 때문에 발생하는 데이터베이스 이질성의 문제를 해결해야 한다. 이 논문에서는 자연언어 질의를 데이터 객체와 그들의 연산 관계에 해당되는 자연언어 용어와 통사 관계로 나타냄으로써 이 문제를 다룬다. SQL 유사 표현을 이용하여 그러한 용어와 통사 관계를 나타내고 이러한 표현에서 직접적인 맵핑 과정을 통해 정형언어 질의를 생성한다. 제안하는 방법은 결합범주문법을 이용하여 자연언어 질의로부터 SQL 유사 표현을 유도하고 다시 이러한 표현에서 데이터 객체에 해당되는 데이터베이스 상의 접근 가능한 위치로 변환한다. 이런 연후에 과정에서 유도된 데이터 위치들을 데이터 관계를 고려한 순서로 정형언어 질의를 생성한다. 그러므로 이 방법은 데이터베이스로부터 이용 가능한 데이터를 찾아오는 전자동화된 방법을 제공한다. 또한 이 방법은 전문가들이 이질적인 데이터베이스들로부터 지식을 발견하는 것을 돕도록 데이터 탐색과 통합을 제공하는 인터페이스로 기능할 수 있다. 실제적인 생의학 분야의 예제로서 데이터 탐색을 위한 단백질 발견, 데이터 통합을 위한 유비퀴틴 단백질 효소 데이터베이스 구축과 데이터 추출 도구를 보인다.

서지기타정보

서지기타정보
청구기호 {DCS 08009
형태사항 ix, 136 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이호동
지도교수의 영문표기 : Jong-C. Park
지도교수의 한글표기 : 박종철
수록잡지정보 : "E3Miner: a text mining tool for ubiquitin-protein ligases". Nucleic Acids Research, (2008)
수록잡지정보 : "Interpretation of Natural Language Queries for Relational Database Access with Combinatory Categorial Grammar". International Journal of Computer Processing of Oriental Languages, v. 15, no. 3, 281-304(2002)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 References : p. 127-136
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서