서지주요정보
Bayesian weight decay for deep convolutional neural networks : approximation and generalization = 심층 회선 신경망의 베이지언 가중치 감쇠 : 근사화와 일반화
서명 / 저자 Bayesian weight decay for deep convolutional neural networks : approximation and generalization = 심층 회선 신경망의 베이지언 가중치 감쇠 : 근사화와 일반화 / Jung-Guk Park.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035570

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DCS 20005

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

This study determines the weight decay parameter value of a deep convolutional neural network (CNN) that yields a good generalization. Although the weight decay is theoretically related to generalization error, determining a value of the weight decay is known to be a challenging issue. Deep CNNs are widely used in vision applications and guaranteeing their classification accuracy on unseen data is important. To obtain such a CNN in general, numerical trials with different weight decay values are needed. However, the larger the CNN architecture, the higher the computational cost of the trials. To address this problem, this study derives an analytical form for the decay parameter through a proposed objective function in conjunction with Bayesian probability distributions. For computational efficiency, a novel method to approximate this form is suggested. This method uses a small amount of information in the Hessian matrix. Under general conditions, the approximate form is guaranteed by a provable bound and is obtained by a proposed algorithm with discretized information, where its time complexity is linear in terms of the depth and width of the CNN. The bound provides a consistent result of the proposed learning scheme. Also, the generalization error of CNN trained by the proposed algorithm is analyzed with statistical learning theory and the analysis on computational complexity shows the rate of efficiency. By reducing the computational cost of determining the decay value, the approximation allows for the fast investigation of a deep CNN which yields a small generalization error. Experimental results show that the assumption verified with different deep CNNs is suitable for real-world image datasets. In addition, the method can show a remarkable time complexity reduction with achieving good classification accuracy when it is applied to deeper classification neural networks, more complex training methods, and/or objective functions requiring the high computational cost. The proposed method has an advantage in that it can be applied to any deep classification network trained by a loss function which satisfies mild conditions.

논문에서는 성능 일반화를 보장 할 수 있는 심층 회선 신경망의 가중치 감소 값을 결정하는 방법에 대해 다루었다. 가중치 감소 기법을 통해 좋은 일반화 성능을 유지 할 수 있음이 이론으로 설립되어 있지만, 감소 값을 선택하는 문제는 기계 학습 분야에서 풀기 어려운 난제로 알려져 있다. 심층 회선 신경망은 비전 연구에서 널리 사용되고 있으며 테스트 환경에서 좋은 성능을 가지는 것이 중요하다. 이러한 회선 신경망을 얻기 위해, 일반적으로 여러 가중치 감소 값을 설정하여 학습 결과가 좋은 값을 선택한다. 하지만 회선 신경망 구조의 크기가 커짐에 따라, 학습에 필요한 계산 비용이 커지게 되며 가중치 감소값 설정에 문제가 발생한다. 이 문제를 해결하기 위해, 본 논문에서는 가중치 감쇠 값을 미분 계산 할 수 있도록 수식화 된 기법을 제시한다. 계산의 효율성을 위해, 새로운 근사화 기법이 제안된다. 이 기법은 헤시안 행렬의 부분 요소를 사용하며, 일반적인 조건 아래 이 근사화 기법의 해는 증명 가능한 상한 선에 의해 보장되며 이에 대한 계산 복잡도는 회선 신경망의 깊이나 폭에 선형적이다. 이 선은 학습에 있어 일관적인 성능을 유지 할 수 있는 학습 알고리즘을 유도한다. 또한, 계산 복잡도 분석에 의한 효율성 분석 및 통계적 학습 이론에 의한 일반화 에러의 보장을 보인다. 가중치 감소 값의 결정에 대한 계산 비용을 줄임에 따라, 더 좋은 일반화 성능을 가지는 심층 회선 신경망 탐색을 촉진 할 수 있다. 이 논문에서의 가정이 실제 데이터에 잘 맞음을 다수의 회선 신경망의 실험에서 보여진다. 실험에서는 제안된 기법을 통해 가중치 감소 값 결정의 수행 시간은 줄어들지만 일반화 분류 성능을 유지 할 수 있음을 보이며, 분류 목적의 복잡한 신경망 구조 및 학습기법에 적용 할 시 효율의 증대성을 함축한다. 제안된 기법은 명시 된 조건을 만족하는 목적 함수를 사용하여 분류 문제를 해결하는 모든 신경망에게 적용 가능성을 보인다.

서지기타정보

서지기타정보
청구기호 {DCS 20005
형태사항 iv, 59 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박정국
지도교수의 영문표기 : Sungho Jo
지도교수의 한글표기 : 조성호
수록잡지명 : "Bayesian Weight Decay on Bounded Approximation for Deep Convolutional Neural Networks". Transactions on Neural Networks and Learning Systems, vol.30 no.9, 2866-2875
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 49-57
주제 Bayesian method
convolutional neural networks
computational complexity
inverse Hessian matrix
regularization
weight decay
베이지언 기법
계산 복잡도
회선 신경망
역 헤시안 행렬
학습 규제
가중치 감소
QR CODE qr code