In biomedical texts, abbreviations are frequently used due to their inclusion of many technical expressions of some length. Accordingly, appropriate recognition of abbreviations and their full form pairs is essential task in automatic text processing of biomedical documents. However, unlike biomedical literatures, clinical notes have many abbreviations without full form indicated in the text or without standard definition in dictionaries due to the nature of the documents. This causes difficulties in adapting traditional approaches for abbreviation disambiguation such as classification among fixed candidates or pattern-based definition extraction. Because of this reason, we consider the task as search problem and propose an approach with two steps: a) exploring possible full form candidates from various resources and b) choosing most acceptable one among retrieved candidates by ranking. To discover full form candidates and extract features of them, we exploited external academic resources such as MEDLINE and UMLS as well as clinical note corpus itself. To rank the candidates properly by consulting human criteria, we adopted RankBoost, one of learning to rank models developed from information retrieval and machine learning societies. Results show the suggested two-step approach has potential on this kind of task and propose another possible application of learning to rank models.
길이가 긴 전문 용어가 자주 사용되는 의료문서에서 의학 약어의 사용은 매우 일반적이다. 따라서 자동 의료문서 처리를 위해 각 약어의 원 정의를 파악하는 것이 매우 중요하다. 그런데 정제된 의료 논문과는 달리 임상문서에서는 특정 약어의 정의가 동일 문서 내에 존재하지 않거나 아예 사전에도 등장하지 않는 경우가 있다. 이런 데이터의 특성으로 인해 기존의 분류나 패턴을 이용한 추출 등을 활용한 자동 의학 약어 처리 방법을 사용하기 어렵다. 따라서 본 연구에서는 이 문제를 기존과 달리 검색의 관점으로 보고 두 단계의 처리 방법을 제시한다. 먼저 약어의 정의가 될 수 있을만한 정의 후보들을 여러 자료들로부터 추출해내고, 그 다음 추출된 후보들을 정답 가능성에 따라 서열화하여 가장 높은 가능성의 후보를 정답으로 채택한다. 정답 후보들을 효과적으로 추출하기 위해 주어진 임상의료문서 집합 외에 MEDLINE과 UMLS를 추가로 도입한다. 추출된 후보들의 서열화를 위해 정보검색과 기계학습 분야에서 개발된 learning to rank 모델을 사용한다. 실험 결과는 제시된 두 단계의 약어 처리 방법의 잠재성과 learning to rank 모델의 새로운 분야 사용 가능성을 제시한다.