Recently, many deep learning-based segmentation algorithms have been developed for Chest X-ray (CXR) images. Unfortunately, existing methods have limitations in that one can get segmentation results for the designated organs only when sufficient number of training data are available. In addition, the size of the required training dataset grows rapidly with multi-organ segmentation. To address this, here we present a novel segmentation method based on Vision Language Pre-training (VLP). Thanks to the semantic alignment of images and texts in VLP, our method can generate reliable segmentation results even with extremely scarce label data set, enabling few-shot and even a single-shot segmentation, which is not possible with existing approaches. Furthermore, our method can generate flexible segmentation results for various organs mentioned in the input sentence. Experimental results confirmed that our method significantly outperforms the existing methods when the number of training data is scarce. Furthermore, even with sufficient number of training dataset, the proposed method provides comparable segmentation results to the existing methods, using various kind of input sentences including sentences with multi-organ, overlapping organs, practical expression, and misspelled word.
최근 딥러닝에 기반한 흉부 X선(CXR) 영상에서의 장기 분할 알고리즘이 많이 개발되고 있다. 하지만, 기존의 방법은 대부분 충분한 수의 훈련 데이터가 있어야 지정된 장기에 대한 분할 결과를 얻을 수 있다는 한계가 있다. 또한, 필요한 훈련 데이터 세트의 크기는 개별 장기 분할보다는 다중 장기 분할을 목표로 할 때 더욱 증가한다. 이를 해결하기 위해, 우리는 비전-언어 사전 훈련(VLP)을 기반으로 하는 새로운 다중 장기 분할 방법을 제시한다. 비전-언어 사전 훈련에서 이뤄지는 이미지와 텍스트의 의미론적 정렬 덕분에, 우리의 방법은 극히 적은 훈련 데이터 세트로도 신뢰할 수 있는 분할 결과를 생성할 수 있으며, 기존 접근 방식으로는 불가능한 퓨-샷 및 싱글-샷 분할을 가능하게 한다. 또한, 우리의 방법은 입력 문장에 언급된 다양한 장기에 대한 보다 유연한 분할 결과를 생성할 수 있다. 실험 결과를 통해 훈련 데이터의 수가 부족할 때 우리의 방법이 기존 방법을 크게 능가한다는 것을 확인했다. 또한, 제안된 방법은 충분한 수의 훈련 데이터 세트를 사용하더라도 기존 방법과 유사한 분할 결과를 보여주며, 다중 장기, 중복된 장기, 실용적 표현, 그리고 철자가 틀린 단어를 포함한 다양한 종류의 입력 문장에 따라 장기를 분할하는 것을 보였다.