Multi-task vision transformer for multi-modal medical image processing = 다중 모달리티 의료영상 처리를 위한 다중 작업 학습 기반 비전 변환기 모델
서명 / 저자 Multi-task vision transformer for multi-modal medical image processing = 다중 모달리티 의료영상 처리를 위한 다중 작업 학습 기반 비전 변환기 모델 / Sangjoon Park.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

DBIS 23005

휴대폰 전송







In this paper, we proposes various Vision Transformer-based models for different medical imaging modalities. Leveraging the intrinsic properties of the Vision Transformer, we applied the proposed methods to classification, segmentation and regression task using optical coherence tomography and radiograph images, to verify the benefit of using Vision Transformer compared with the conventional convolutional neural network. Optical coherence tomography is a medical imaging modality that utilizes light to obtain high resolution images with micrometer scale without harming the living tissue thanks to its non-invasiveness. In addition, as the acquisition speed is fast, it can be used as a real-time imaging modality which can be obtained during the medical procedures. Due to these properties, the optical coherence tomography has been widely used in the field of cardiology for evaluation of underlying pathology in patients with acute coronary syndrome. The optical coherence tomography image has three-dimensional structure with the frames stacked in direction of vessels. Leveraging these volumetric three-dimensional structure, we devises an algorithm that utilizes the Transformer to process the sequential optical coherence tomography images in similar way to natural language processing. Owing to its convenience and the cost-effectiveness, the radiograph image has been widely used for the purpose of screening for a variety of pathologic conditions. As it has two-dimensional structure similar to the natural image, the algorithms devised to process the natural image can readily be applied to this imaging modality. Therefore, we introduces the algorithms based on the properties of Vision Transformer, a recently introduced attention-based architecture without convolution, to improve the generalization capacity as well as the model performance given the limited data and label. In addition, noting that the Vision Transformer is suitable for multi-task learning and distributed learning, we also introduces the multi-task distributed learning methods tailored for Vision Transformer. Finally, as Vision Transformer-based model can benefit more form the self-supervised and semi-supervised learning than convolutional neural networks, we proposes a self-evolving framework that can amalgamate the strengths of two methods under the common ground of knowledge distillation.

이 논문에서는 다양한 의료영상 모달리티에 대하여 비전 변환기 모델을 활용한 인공신경망 모델을 제안한다. 비전 변환기 고유의 특성을 활용한 인공신경망 모델을 광간섭 단층 촬영 영상과 방사선 촬영 영상의 진단, 분할, 회귀 분석 문제에 적용하여 기존 합성곱 인공신경망 모델 대비 차이점 및 장점을 검증하고, 그 특성을 분석하고자 한다. 광간섭 단층 촬영 영상은 빛을 사용하여 생체 조직과 같은 광학 산란 매체 내에서 마이크로 미터의 고해상도 이미지를 촬영하는 의료 영상 기술로, 근적외선을 조직에 쏘아 돌아오는 빛을 분석함으로써 조직의 특성을 파악한다. 광간섭단층촬영 영상은 획득 속도가 빨라 실시간 영상 획득이 가능하여 시술 중에 영상 획득이 용이하며, 비침습적인 특성으로 인하여 인체에 해를 가하지 않고 영상을 획득할 수 있다. 이와 같은 특성으로 관상동맥 등의 혈관 구조를 파악하고 병변 존재 유무를 진단하는 데 도움을 줄 수 있어 심장학 분야에서 널리 유용하게 활용되고 있다. 광간섭 단층 촬영 영상은 2차원적인 개별 프레임 영상이 혈관의 주행을 따라 순서를 가지고 있는 3차원적인 구조의 의료 영상이다. 순서를 가진 볼륨 데이터라는 구조에 착안하여 본 연구에서는 광간섭 단층 촬영 영상에 유사하게 순서를 가진 데이터 구조인 자연어 처리를 위하여 고안된 비전 변환기 모델을 활용하는 알고리즘을 고안하였다. 평면적인 구조를 가진 영상으로서 방사선 촬영 영상은 영상 촬영이 간편하다는 점과 비용이 저렴하다는 장점으로 선별 검사 등의 목적으로 널리 사용되는 의료 영상 모달리티로, 평면적인 2차원적 구조를 가진 영상이라는 점에서 일반 자연 영상들과 유사성을 가지고 있다. 따라서, 자연 영상 처리를 위하여 개발된 비전 변환기 모델 고유의 특성들을 활용하여 기존의 합성 곱신경망에 비하여 데이터 및 라벨이 부족한 상황에서 우수한 일반화 성능을 보이는 의료 영상 분류 알고리즘을 개발하였다. 또한, 비전 변환기 구조가 다중학습 및 연합학습에 적합한 모듈 구조라는 점에 착안하여, 의료 영상의 다중 분할 학습 알고리즘을 고안하였다. 비전 변환기 모델이 지식 증류 기반의 자기 지도 및 자기 학습 방식에 적합하다는 점을 활용하여, 두 방식의 장점을 융합한 인공지능 자기 진화 프레임워크를 제안하였다.


청구기호 {DBIS 23005
형태사항 xviii, 154 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박상준
지도교수의 영문표기 : Jong Chul Ye
지도교수의 한글표기 : 예종철
수록잡지명 : "Self-evolving vision transformer for chest X-ray diagnosis through knowledge distillation". Nature Communications, v.13, 3848(2022)
수록잡지명 : "Enhanced Diagnosis of Plaque Erosion by Deep Learning in Patients With Acute Coronary Syndromes". JACC: Cardiovascular Interventions, v.15.no.20, 2020-2031(2022)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 130-148
주제 Deep learning
Vision transformer
Optical coherence tomography
Multi-task learning
Distributed learning
Knowledge distillation
Self-supervised learning
비전 변환기
광간섭 단층 촬영
방사선 촬영
다중 작업 학습법
분산 학습법
지식 증류 기법





이 주제의 인기대출도서