서지주요정보
Non-contrastive self-supervised learning with uno process for respiratory sound classification = 호흡기 청진음 분류를 위한 UNO 처리 기반 비대조-자기지도학습 기법의 평가
서명 / 저자 Non-contrastive self-supervised learning with uno process for respiratory sound classification = 호흡기 청진음 분류를 위한 UNO 처리 기반 비대조-자기지도학습 기법의 평가 / Ying Hui Tan.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039894

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22163

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Both auscultation and deep learning have come a long way since the 19\textit{th} century. The evolution of technology creates possibilities in respiratory auscultation through join-forces with deep learning-based digital stethoscope sound analysis. There will be exciting applications in this new era of auscultation such as augmented intelligence for cost-effective medical student training and telemedicine. Unfortunately, it is hard for deep neural networks to generalise over complex data representation in a small-scale, long-tailed regime. With other potential limitations such as the trustworthiness of labels, limited audio augmentation methods and privacy issue constraints, we believe that SSL is a good starting point to address these problems through representation learning. However, one of the state-of-the-art SSL models - BYOL suffers from dimensional collapse in the ICBHI'17 dataset because of a low initial latent entropy due to limited training sample size and small data augmentation distribution. Therefore, we propose a non-contrastive SSL algorithm, Unpredictable Neuron Operation (UNO) process. UNO process is a simple yet effective algorithm that utilises neuron masking as a model augmentation variant to maximise the latent representation and avoid collapsing. We replace \texttt{BatchNorm} layer of the predictor with Neuron Mask, which ignores or injects noises via Binomial or Gaussian distribution onto the prediction latent. We demonstrate theoretically and empirically that UNO process is invariant to training sample size and data augmentation distribution while acting as an upper bound to the latent representation. Our UNO-trained audio spectrogram transformer model reaches a novel score of 59.14\% on pretext dataset ICBHI'17 official split and 84.23\% on downstream dataset Fraiwan. On top of that, UNO process alleviates the long-tailed data imbalance effect. Besides that, our ablation study suggests that UNO process is more robust towards the choice of data augmentation.

청력과 딥러닝은 모두 19세기 이후로 많은 발전을 이루었다. 기술의 진화는 딥러닝 기반 디지털 청진기 음향 분석과의 합작을 통해 호흡 청진에서 가능성을 창출한다. 비용 효율적인 의대생 훈련과 원격진료를 위한 증강 지능과 같은 청진술의 새로운 시대에 흥미로운 응용 프로그램이 있을 것이다. 안타깝게도, 심층 신경망은 작고 긴 꼬리를 가진 체제에서 복잡한 데이터 표현을 일반화하기 어렵다. 레이블의 신뢰도, 제한된 오디오 확대 방법 및 개인 정보 보호 문제 제약과 같은 다른 잠재적 한계와 함께, 우리는 SSL이 표현 학습을 통해 이러한 문제를 해결하는 좋은 출발점이라고 믿는다. 그러나 최첨단 SSL 모델 중 하나인 BYOL은 제한된 훈련 샘플 크기와 작은 데이터 확대 분포로 인해 초기 잠재 엔트로피가 낮기 때문에 ICBHI'17 데이터 세트에서 차원 붕괴를 겪는다. 따라서 비대조적 SSL 알고리듬인 예측 불가능한 뉴런 작동(UNO) 프로세스를 제안한다. UNO 프로세스는 잠재 표현을 극대화하고 붕괴를 피하기 위해 모델 증강 변종으로 뉴런 마스킹을 사용하는 간단하지만 효과적인 알고리듬이다. 예측 변수의 \texttt{BatchNorm} 계층을 이항 분포 또는 가우스 분포를 통해 잠재 예측에 노이즈를 무시하거나 주입하는 뉴런 마스크로 대체한다. 우리는 UNO 프로세스가 잠재 표현에 대한 상한으로 작용하면서 샘플 크기와 데이터 확대 분포를 훈련하는 데 변함이 없음을 이론적이고 경험적으로 입증한다. 우리의 UNO 훈련 오디오 스펙트로그램 변환기 모델은 명분 데이터 세트ICBHI'17 공식 분할에서 59.14\% 그리고 다운스트림 데이터 세트 Fraiwan에서 84.23\%의 새로운 점수에 도달한다. 여기에 UNO 프로세스는 긴 꼬리의 데이터 불균형 효과를 완화한다. 그 외에도, 우리의 절제 연구는 UNO 프로세스가 데이터 확대 선택에 더 강력하다는 것을 시사한다.

서지기타정보

서지기타정보
청구기호 {MEE 22163
형태사항 v, 71 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 진영혜
지도교수의 영문표기 : Chan-Hyun Youn
지도교수의 한글표기 : 윤찬현
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 59-65
주제 Respiratory Sounds Classification
Non-Contrastive Self-Supervised Learning
Audio Deep Learning
Representation Learning
Entropy Maximisation
호흡기 청진음 분류를
비대조-자기지도학습
딥러닝 기반의 오디오 기술
가진 표현 학습
엔트로피최대화
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서