Radiology reports are written by a medical expert via analysing radiology images such as CT and MRI. It consists of cancer clause and non-cancer clauses. We focus on text classification for cancer and non-cancer classes. This data has two unique characters. First, the number of cancer clauses is much smaller than the number of non-cancer clauses. Second, important terms for cancer also occur in the non-cancer class. Since it is often difficult to determine the cancer based on radiology images, some clauses are labelled as non-cancer in spite of having important terms for cancer. Recently, term weighting approaches have been proposed to solve the data imbalance problem. However, we argue that it sometimes gives weight wrongly due to duplicate terms. Consequently, we utilize cancer related external data to calculate term weights. Since external data is highly related with cancer, we can find important terms for cancer and calculate its weight. Based on calculated weights from external data, term weights in the cancer class are increased and term weights in the non-cancer class are decreased. Through the experiment, proposed method showed enhanced performance than term weighting methods using the training data.
방사선 결과 보고서는 방사선 전문의가 방사선 이미지를 보고 발견된 사항을 기술한 문서이다. 해당 문서에는 암과 암과 관련없는 절들이 존재하는데 본 연구에서는 자동으로 암과 암과 관련없는 절을 분류하고자 한다. 이러한 데이터는 일반적인 데이터와 다르게 크게 두 가지 특성을 가지고 있다. 첫째는 암이라고 판단되는 환자의 수가 적기 때문에 암 관련 절의 수가 암과 관런없는 절에 비해 상대적으로 매우 작다. 둘째로는 방사선 이미지만 보고 판단하기 어려운 경우 암과 관련된 용어가 있다 하더라도 암과 관련 없는 절로 구분 된다는 점이다. 최근에 제안된 용어 가중치 방식은 불균형한 데이터 문제를 해결할 수 있다고 알려져 있다. 하지만 중복된 용어들로 인해 제안된 용어 가중치 방식들은 종종 잘못된 가중치를 부여하므로 본 연구에서는 외부 데이터로부터 가중치를 계산하여 활용함으로써 이러한 문제를 해결하고자 한다. 외부 데이터는 암과 관련성이 높은 데이터를 선택하여 데이터 불균형과 중복된 용어에 상관 없이 어떠한 용어가 암과 관련성이 높은 것인지 판단한다. 결론적으로, 외부 데이터에서 계산된 가중치를 가지고 암과 관련성이 높은 용어들은 암 클래스 등장시 가중치를 높여주고 암과 관련없는 클래스에서 등장시에는 가중치를 내림으로써 데이터 불균형과 중복된 용어 두 가지 문제가 해결될 수 있는 가능성을 확인하였다.