Recently, deep learning techniques have advanced significantly contributing to notable progress in the medical field. In particular, the unsupervised method is valuable in the medical field where acquiring labeled datasets can be challenging. Another notable approach involves the pre-trained model, which was trained on a large-scale dataset encompassing both vision and text data. This model achieved contextual and cross-modal understanding, showing significant performance improvements in various tasks. this study introduces a method aimed at addressing various challenges related to image quality degradation in the medical imaging field and enhancing workflow. I introduced a method for translating 3-dimensional (3-D) ultrasound image quality to 2-D quality, enhancing contrast, sharpness, and reducing artifacts. Additionally, I proposed a method for RealisticVue image restoration and enhancement network, aiming to generate a realistic full facial view of the fetus for a more pleasing experience for pregnant. Furthermore, I suggested a method for ultrasound image translation using speech guidance to achieve image control without direct handling. Moreover, I presented a method for text correction in the medical domain, generating from conventional Speech-To-Text (STT) systems by leveraging vision information. Finally, I proposed a method for breast ultrasound report generation using an LLM-based LangChain framework, addressing the time-consuming issues. I demonstrate that my approach holds considerable promise for practical implementation in the clinical field.
최근 딥러닝 기술은 의료 분야에서 주목할 만한 발전을 이루고 있습니다. 특히, 비지도 학습은 라벨이 필요 없는 방법으로, 라벨이 지정된 데이터를 획득하기 어려운 의료 영상 분야에서 특히 가치가 높게 평가되고 있습니다. 뿐만 아니라 이미지 및 텍스트 데이터를 포함하는 대규모 데이터셋에서 훈련된 사전 학습 모델을 이용하는 방법은 맥락과 상호 모달리티를 이해를 할 수 있어 여러 분야에서 상당한 성능 향상을 보여주었습니다. 이러한 기술적 진보를 바탕으로 본 연구에서는 의료 영샹 분야에서 발생하는 여러 화질 저하 문제를 해결하고 작업 흐름을 개선하는 방법을 제시하였습니다. 첫 번째로, 3차원 초음파 이미지 품질을 2차원 품질로 변환하는 방법을 제시하여 명암, 경계선 및 아티팩트를 개선하였습니다. 더불어, 임산부의 시각적 즐거움을 위한 기술인 RealisticVue 이미지를 사실적이고 손상되지 않은 전체 얼굴로 변환하기 위해 이미지 복원 및 품질 향상 방법을 제안했습니다. 또한, 음성 안내를 바탕으로 초음파 이미지의 품질을 변환하는 방법을 제안했으며, 이미지 정보를 활용하여 기존의 Speech-To-Text (STT) 시스템에서 나온 잘못된 텍스트를 의료 도메인으로 교정하는 방법을 제시했습니다. 마지막으로, 대규모 언어 모델 기반인 LangChain 프레임워크를 이용하여 유방 초음파 보고서 생성 과정에서 상당한 시간이 소모되는 문제를 해결하는 방법을 제안했습니다. 이러한 연구들은 실제 임상 분야에서 구현될 수 있는 상당한 가능성을 보여주고 있습니다.