Deep neural networks, which employ batch normalization and ReLU-like activation functions, suffer from instability in the early stages of training due to the high gradient induced by temporal gradient explosion. In this study, we analyze the occurrence and mitigation of gradient explosion both theoretically and empirically, and discover that the correlation between activations plays a key role in preventing the gradient explosion from persisting throughout the training. Finally, based on our observations, we propose an improved adaptive learning rate algorithm to effectively control the training instability
배치 정규화와 정류 선형 유닛을 사용한 인공신경망 모델은 학습 초기에 기울기 폭발로 인한 일시적인 학습 불안정성을 겪는다. 본 논문은 기울기 폭발의 발생과 그 완화 과정을 이론적이며 실증적으로 검증하고, 입력 신호 간의 상관관계가 기울기 폭발이 영구히 지속되지 않도록 하는 주된 요인임을 밝힌다. 또한 이런 관찰을 바탕으로 학습 불안정성을 더 효과적으로 통제할 수 있는 계층 단위의 학습률 적응 알고리즘을 제안한다.