Developing a robust algorithm to assist diagnosis and quantify the severity of the novel coronavirus disease 2019 (COVID-19) using Chest X-ray (CXR) requires a large number of well-curated COVID-19 datasets, which is difficult to collect under the global COVID-19 pandemic. On the other hand, CXR data with other findings are abundant.
This situation is ideally suited for the Vision Transformer (ViT) architecture, where a lot of unlabeled data can be used through structural modeling by the self-attention mechanism.
However, the use of existing ViT may not be optimal, as the feature embedding by direct patch flattening or ResNet backbone in the standard ViT is not intended for CXR. To address this problem, here we propose a novel {Multi-task} ViT that leverages low-level CXR feature corpus obtained from a backbone network that extracts common CXR findings. Specifically, the backbone network is first trained with large public datasets to detect common abnormal findings such as consolidation, opacity, edema, etc. Then, the embedded features from the backbone network are used as corpora for a {versatile Transformer model for both the diagnosis and the severity quantification} of COVID-19. We evaluate our model on various external test datasets from totally different institutions to evaluate the generalization capability. The experimental results confirm that our model can achieve state-of-the-art performance in both diagnosis and severity quantification tasks with outstanding generalization capability, which are sine qua non of widespread deployment for assisting radiologists.
흉부 X선을 사용하여 코로나바이러스감염증-19 (코로나19)의 진단을 보조하거나 중증도를 정량화하는 높은 성능의 심층 학습 알고리즘을 개발하기 위해서는 많은 코로나19 데이터를 포함하는 선별된 데이터셋이 필요하다. 하지만, 전 세계의 코로나19 대유행 상황 속에서 이를 수집하는 것은 매우 어렵다. 반면에,
기존의 다른 병변에 대한 흉부 X선 데이터는 풍부하다. 비전 변환기는 많은 양의 레이블링이 되어있지 않은 데이터들이 셀프 어텐션 메커니즘을 통해 구조적으로 모델링 될 수 있는 이러한 상황에서 이상적인 구조를 가지고 있다. 하지만, 기존 비전 변환기의 직접 패치 임베딩, ResNet 백본을 이용한 특징맵 임베딩은 흉부 X선 영상 데이터를 위한 것이 아니므로, 기존의 비전 변환기를 그대로 이용하는 것은 최선의 선택이 아닐 수 있다. 본 논문에서는, 이 문제를 해결하기 위해 백본 네트워크에서 저수준의 흉부 X선 병변 피처맵을 얻고, 이를 이용해 다중 흉부 X선 작업을 수행하는 비전 변환기를 제안한다. 백본 네트워크는 폐경화, 불투명도와 같은 저수준의 흉부 X선 병변들을 감지하기 위해 먼저 대규모 공개 데이터셋을 이용해 훈련된다. 그 다음, 비전 변환기 모델은 백본 네트워크에 의해 생성된 피처맵을 입력으로 받아 코로나19의 진단 및 중증도 정량화 두가지 작업을 동시에 수행한다. 제안하는 모델의 일반화 성능을 다양한 독립된 기관의 외부 테스트셋에 평가하였다. 실험 결과를 통해, 제안하는 모델이 진단 및 중증도 정량화 모두에서 탁월한 일반화 성능을 보여주어, 실제 현장에서 진단을 보조하거나 중증도를 정량화하여 환자의 예후관리를
돕는 작업에 널리 이용될 수 있음을 보여주었다.