Terminological Paraphrases (TPs) are sentences or phrases that express the concepts of terminologies in a different form. This paper proposes a novel way to identify and extract the TPs from large-scaled scientific literature databases to enhance the diversity of scientific information access models. To achieve this, we develop a novel sentence retrieval system capable of effectively searching sentences with terminological concepts based on a semantic unit called Predicate-Argument Tuple (PAT). This system plays pivotal roles in the entire TP extraction process by both enabling the efficient textual similarity computations and minimizing the errors based on the six TP ranking models for the purpose of presenting many of true TPs at higher ranks.
In the experiment, we extracted TPs from a target literature database in practice using the proposed system, which could construct an evaluation collection for TP recognition consisting of totally 24,468 in-stances through reliable manual validation. This collection enabled us to make an in-depth comparison be-tween the six TP ranking models and we found that “PAT Significance Adjustment (PSA)” and “PAT Overlap Ratio (POR)” methods showed superior performance for the TP extraction. We also experimentally showed that all the 6 ranking models are in complementary relations and their combinations could boost precision of the TP extraction further as compared with unitary models.
Furthermore, we expanded our experimental scope to scientific information retrieval to investigate wheth-er our approaches can help searching documents relevant to particular terms, although they are not present in the documents. In this experiment, we found that the PAT-based document retrieval method outperformed other more conventional alternatives.
본 논문은 통제 어휘 기반 학술 정보 접근 모델의 포괄성을 개선하기 위해서 대용량 학술 데이터베이스 내에서 기술 용어의 개념을 환언하여 서술한 기술 용어 패러프레이즈(Terminological Paraphrase, TP)를 효율적으로 추출하는 방법론을 제안한다. 세부적으로, 용어의 표준 정의문과 학술 데이터베이스 내 텍스트 간의 의미적 동질성 식별을 통한 용어의 대체 표현을 식별할 수 있는 PAT (Predicate-Argument Tuple) 기반 문장 검색 시스템과 이를 활용한 TP 추출 시스템을 구축한다. 이를 통해, 텍스트의 의미 요소를 단어 수준에서 술어-논항 구조(Predicate-Argument Structure)로 확대한 문장 검색 및 TP 추출 기법을 통해서 거짓 양성(False Positive) 오류를 최소화함과 동시에 추출의 효율성을 도모한다.
구축된 시스템을 활용하여 문헌 내에서 그 존재 유무 및 인식 방법 등에 대한 집중적인 논의가 거의 없었던 기술 용어 패러프레이즈(TP)를 실질적으로 추출하는 실험을 수행하였다. 추출된 TP 후보 집합을 기반으로 전문가에 의한 수동 검증 작업을 통해서 총 24,468 건으로 구성된 기술 용어 패러프레이즈 인식 평가 컬렉션을 구축할 수 있었다.
본 논문에서 제안한 총 6가지 TP 랭킹 모델들에 대한 비교 실험은 IDF 기반 PAT 중요도를 적용한 “PAT Significance Adjustment (PSA)” 기법이 전반적으로 높은 성능을 보이고 있음을 보여준다. 또한 제안된 TP 랭킹 방법들이 서로 상호 보완적인 관계에 있음을 실험적으로 증명하였고, 실질적으로 결합 방법에 따른 성능 상승 변화 과정을 목격할 수 있었다.
나아가서 통제 어휘 기반 학술 정보 접근 모델에서 단일 기술 용어로 구성된 질의를 이용하여 학술 정보를 검색하고자 할 경우, 해당 질의가 출현하지는 않으나 그 질의와 동일한 의미의 패러프레이즈를 포함한 적합 문헌들을 검색하는 실험을 수행하였다. 이 실험을 통해, 용어의 개념이 포함된 문헌(용어의 패러프레이즈가 포함된 문헌)을 검색하기 위한 용어 정의문 PAT 검색의 효용성을 확인하였으며 PRF 기반 질의 확장 방법에서 검색하지 못하는 새로운 적합 문헌을 찾아내는데 효과적임을 알 수 있었다.