서지주요정보
무한 너비 신경망의 두터운 꼬리 분포와 노드간 의존성 = Infinitely wide neural networks with heavy tails and inter-node dependence
서명 / 저자 무한 너비 신경망의 두터운 꼬리 분포와 노드간 의존성 = Infinitely wide neural networks with heavy tails and inter-node dependence / Hoil Lee.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042561

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DMAS 24009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Machine learning models are typically initialized by independent Gaussian weights. However, there are evidences which reveal that the weights of some pre-trained models exhibit heavy-tailed distributions and dependence between themselves. This hints that, in terms of Bayesian inference, our prior belief does not properly describe the true behavior of the network function. To alleviate such limitations, we consider a network model where the weights are initialized with possibly dependent heavy-tailed distributions. We prove that, as the network width tends to infinity, the outputs of such a network converge in distribution to stable processes or, in general, mixtures of Gaussian processes, where the limiting stochastic processes are determined according to the distributions the weights are initialized. We also prove that some weights do not converge to zero as the width tends to infinity, and the corresponding node may represent hidden features. Additionally, we investigate the pruning error under the infinite-width limit. Finally, we analyze the optimization of our network via gradient flow, and prove that the gradient flow converges to the global minimum while learning features, unlike the previous Neural Tangent Kernel (NTK) model.

기존의 여러 기계학습 모델은 정규분포와 노드간 독립성을 가정하는데, 이러한 모델을 학습시키면 그 학습된 노드의 가중치들이 두터운 꼬리 분포와 노드간 의존성을 가짐이 여러 실험적인 결과에서 확인된다. 베이즈 추론의 관점에서, 이것은 사전 확률이 신경망의 행동을 잘 반영하지 못하는 것으로 이해할 수 있다. 이러한 한계점을 해결하고자 본 논문에서는 가중치의 초깃값이 의존성을 가지는 두터운 꼬리분포로 초기화되는 모델을 제시하였다. 이 초기화된 무한너비 신경망이 초깃값 분포에 따라 안정 과정, 혼합 가우스 가정 등을 따름을 보였으며, 일부 노드의 가중치는 0으로 수렴하지 않아 특징(feature)을 학습함을 보였다. 추가적으로, 신경망의 가지치기(pruning) 오차를 무한너비 극한 하에서 분석하였다. 마지막으로, 이러한 모델의 학습을 경사 하강 흐름(gradient flow)을 통해 분석하고, 학습된 신경망이 손실함수를 전역 최솟값으로 수렴시키면서도, 기존의 Neural Tangent Kernel (NTK) 모델과는 다르게 특징을 학습할 수 있음을 보였다.

서지기타정보

서지기타정보
청구기호 {DMAS 24009
형태사항 vii, 145 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이호일
지도교수의 영문표기 : Ji Oon Lee
지도교수의 한글표기 : 이지운
수록잡지명 : "$\alpha$-Stable convergence of heavy-/light-tailed infinitely wide neural networks". Advances in Applied Probability, v.55.no.4, pp.1415-1441(2023)
수록잡지명 : "Deep Neural Networks with Dependent Weights: Gaussian Process Mixture Limit, Heavy Tails, Sparsity and Compressibility". Journal of Machine Learning Research, v.24.no.289, pp.1-78(2023)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 수리과학과,
서지주기 References : p. 135-143
주제 Heavy-tailed distribution
inter-node dependence
infinitely wide neural network
mixture of Gaussian processes
feature learning
pruning
Neural Tangent Kernel
두터운 꼬리 분포
노드간 의존성
무한 너비 신경망
혼합 가우스 과정
표현 학습
가지치기
Neural Tangent Kernel
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서