Breast cancer is the most prevalent cancer and a major contributor of cancer-related deaths among women. Accurate prognostic analysis of breast cancer is essential for effective treatment. To achieve this, there is an ongoing effort to construct multimodal deep neural network models, using a comprehensive range of data including clinical data and genomic information. However, while clinical data are relatively abundant, genomic data acquisition is time-consuming and costly, presenting a significant challenge. This paper addresses this limitation by employing active learning, a method that prioritizes unverified data likely to significantly enhance model performance for training. Our findings demonstrate that this active learning-based data selection approach significantly improves model performance compared to random data extraction, offering a promising strategy for efficient and effective breast cancer prognostic analysis.
유방암은 여성에게서 가장 흔한 암이며 암으로 인한 죽음의 가장 큰 원인이다. 유방암을 효과적으로 치료하기 위해서 유방암의 예후를 정확히 분석할 필요성이 있다. 이를 위하여 임상 데이터뿐만 아니라 유전체 데이터 등을 활용하여 다중 모달 심층 신경망 모델을 구축하는 예후 분석이 시도되고 있다. 심층 신경망 모델의 훈련을 위해서는 많은 양의 데이터가 필요하지만 임상 데이터에 비하여 유전체 데이터는 데이터 확보에 시간과 비용이 많이 소모된다는 한계가 있다. 본 논문에서는 이 같은 한계를 극복하고자 능동 학습을 활용하였다. 능동 학습이란 아직 확인되지 않은 데이터들 중에서 모델의 성능을 효과적으로 개선시킬 수 있는 데이터를 우선적으로 학습에 사용하는 방법이다. 결과적으로 능동 학습을 활용한 데이터 선택 방식이 무작위 추출 방법에 비해 모델 성능의 개선에 효과가 있음을 확인하였다.