서지주요정보
(The) disharmony between batch normalization and ReLU causes the gradient explosion, but is offset by the correlation between activations = 배치 정규화와 정류 선형 유닛 간의 부조화로 인한 기울기 폭발과 입력 신호 간의 상관관계로 인한 상쇄
서명 / 저자 (The) disharmony between batch normalization and ReLU causes the gradient explosion, but is offset by the correlation between activations = 배치 정규화와 정류 선형 유닛 간의 부조화로 인한 기울기 폭발과 입력 신호 간의 상관관계로 인한 상쇄 / Inyoung Paik.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041175

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23058

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep neural networks, which employ batch normalization and ReLU-like activation functions, suffer from instability in the early stages of training due to the high gradient induced by temporal gradient explosion. In this study, we analyze the occurrence and mitigation of gradient explosion both theoretically and empirically, and discover that the correlation between activations plays a key role in preventing the gradient explosion from persisting throughout the training. Finally, based on our observations, we propose an improved adaptive learning rate algorithm to effectively control the training instability

배치 정규화와 정류 선형 유닛을 사용한 인공신경망 모델은 학습 초기에 기울기 폭발로 인한 일시적인 학습 불안정성을 겪는다. 본 논문은 기울기 폭발의 발생과 그 완화 과정을 이론적이며 실증적으로 검증하고, 입력 신호 간의 상관관계가 기울기 폭발이 영구히 지속되지 않도록 하는 주된 요인임을 밝힌다. 또한 이런 관찰을 바탕으로 학습 불안정성을 더 효과적으로 통제할 수 있는 계층 단위의 학습률 적응 알고리즘을 제안한다.

서지기타정보

서지기타정보
청구기호 {MAI 23058
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 백인영
지도교수의 영문표기 : Jaesik Choi
지도교수의 한글표기 : 최재식
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 12-15
주제 Deep learning
Gradient explosion
Training instability
WarmUp
LARS
심층학습
기울기 폭발
학습 불안정성
WarmUp
LARS
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서