서지주요정보
다층 퍼셉트론 신경회로망의 학습가속을 위한 새로운 중간층 오차함수와 최적 학습률 = Fast training of multilayer perceptrons with a new error function for hidden layer and optimum learning rates
서명 / 저자 다층 퍼셉트론 신경회로망의 학습가속을 위한 새로운 중간층 오차함수와 최적 학습률 = Fast training of multilayer perceptrons with a new error function for hidden layer and optimum learning rates / 오상훈.
저자명 오상훈 ; Oh, Sang-Hoon
발행사항 [대전 : 한국과학기술원, 1999].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8010267

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 99069

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Multilayer perceptrons(MLPs) have been widely applied to pattern recognition, time series prediction, nonlinear control, and telecommunications. A popular method of training MLPs is the error back-propagation(EBP) algorithm, which is a gradient descent with a fixed learning rate and has a drawback with slow convergence. To accelerate the EBP algorithm, recently, the layer-by-layer(LBL) optimizing algorithm was proposed in which each layer of MLPs is decomposed into both a linear part and a nonlinear part. The linear part of each layer is solved through formulation of the well-known least squares problem. Although this algorithm shows fast convergence with much less computational complexity than those of the conjugate gradient or Newton methods, it results in a stalling problem due to target assignments at hidden nodes. A merged method of the LBL and the EBP algorithms was proposed to resolve the stalling problem due to the hidden targets. Also, an optimization layer by layer(OLL) learning algorithm was proposed, in which the optimization of hidden weights was reduced to a linear problem by the linearization of the sigmoidal activation function at hidden nodes. Although these are free from hidden targets, they still use a heuristic rule to update weights. This thesis proposes a new error function at hidden layers to speed up the training of MLPs, which is a mean-squared error multiplied by a square term of sigmoidal slopes for hidden targets. With this new hidden error function, the LBL algorithm approximately converges to the error back-propagation algorithm with optimum learning rates. Especially, the optimum learning rate for a hidden weight vector appears approximately as a multiplication of two optimum factors, one for minimizing the new hidden error function and the other for assigning hidden targets. If all hidden nodes and their targets are saturated before successful training, the proposed error function does not work due to the slope term. Hidden nodes, however, are not saturated in the initial stage of learning, since MLPs are generally initialized with small random weights to prevent their premature saturation. Also, hidden nodes are trained not to be saturated but to extract near-orthogonal features from input patterns. Therefore, there will be no real problems in which the proposed error function flaws. Effectiveness of the proposed error function was demonstrated for handwritten digit recognition and isolated-word recognition tasks. Very fast learning convergence was obtained for MLPs without sacrificing the generalization capability. Also, the proposed hidden error function resolved the stalling problem experienced in conventional LBL algorithms.

단순한 기능을 지닌 비선형 뉴런들과 이 뉴런들을 연결하는 가중치들로 구성된 MLP는 학습에 의해 임의의 함수를 근사화하는 특징이 있다. MLP의 학습방법으로는 오차함수의 1차 미분에 근거한 EBP 알고리즘이 널리 알려져 있으나 학습속도가 느린 단점이 있고, 오차함수의 2차 미분을 이용한 CGM방법이나 뉴톤 방법은 계산량이 너무 방대하여 MLP의 구조가 크고 학습패턴의 수가 많은 경우에 적용이 곤란하다. 이러한 단점들의 보완책으로 학습속도가 빠르면서도 계산량이 방대하지 않는 MLP의 계층별 학습방법이 제안되었다. 이 계층별 학습방법에서 중간층 가중치들은 중간층의 MSE를 최소화 시키도록 학습되지만, 중간층 뉴런들의 목표 값이 선형적으로 분리해 낼 수 없는 형태이면 더 이상 출력 층의 오차가 줄지 않는 학습의 정체 현상이 나타난다. 이 논문은 MLP의 학습속도를 빠르게 하기 위해 제안된 계층별 학습에서 중간층 뉴런의 목표 값에 대한 선형적 분리성 문제를 해결하는 방법으로 새로운 중간층 오차함수를 제시하였다. 이는 MLP에서 중간층 뉴런의 가중치 합은 시그모이드 변환을 거친 후 출력층으로 전파되며, 학습의 목표는 출력층의 오차를 최소화 시키는 것이므로, 중간층 오차함수는 시그모이드의 미분에 관련된 항을 가져야 한다는 점에 착안하였다. 제안한 중간층 오차함수는 일반적인 MSE에 중간층 뉴런 목표값의 시그모이드 기울기를 곱한 형태이다. 중간층 가중치를 학습시키기 위해 새롭게 정의된 중간층 오차함수를 이용하면, 중간층 가중치의 변경식이 근사적으로 EBP 방법의 가중치 변경식과 유사하게 된다. 즉, 제안한 방법을 이용한 중간층 가중치의 변경식은 마치 EBP 알고리즘에서 학습률을 학습패턴 및 중간층 뉴런에 따라 다른 값을 지니도록 한 형태이다. 그 결과, 새롭게 정의된 중간층 오차를 최소화 시키기 위해 변경되는 중간층 가중치는 마치 EBP 방법과 유사한 형태로 출력 층 오차를 줄이는 작용이 있으므로, 학습의 진행에서 EBP 알고리즘이 지닌 MLP의 내부표현 특성을 유지하여 기존의 계층별 학습방법이 지닌 중간층 뉴런의 목표 값에 대한 선형적 분리성 문제를 해결하였다. 이 논문에서 제안한 새로운 중간층 오차함수는 중간층 목표값의 시그모이드 기울기 항을 지니고 있다. 따라서, 만약 충분히 학습이 되지 않은 상황에서 모든 중간층 뉴런이 포화영역에 위치하게 되면, 이 중간층 오차함수의 값은 0이 되어 학습이 진전되지 않을 것이다. 그렇지만, MLP의 초기 가중치와 뉴런의 포화 현상을 확률론적으로 유도하여 충분히 작은 값으로 MLP의 초기 가중치를 설정하면 중간층 뉴런이 모두 포화되지 않음을 증명하였다. 또한, MLP의 중간층 뉴런이 뉴런 출력들 사이의 상관관계를 감소시키는 특성이 있음을 증명하여, 학습과정 중에 MLP의 중간층 뉴런들이 포화되기 보다는 입력패턴의 독립적 특징을 추출하려 함을 보였다. 따라서, 실제적인 문제에서 중간층 뉴런의 포화 때문에 제안한 방법이 동작하지 않는 경우는 없음을 설명하였다. 제안한 방법의 효용성을 확인하기 위해 필기체 숫자인식 문제와 음성인식 문제를 대상으로 여러 학습방법을 시뮬레이션하였다. 제안한 방법은 기존의 계층별 학습방법에서 나타난 학습의 정체현상이 없었으며 가장 빠른 학습속도를 보여주었다. 이와 같은 결과는 제안한 방법이 EBP 알고리즘의 최적 학습률을 지닌 형태이어서, 중간층 뉴런의 목표 값에 대한 선형적 분리성 문제가 없으며 계층별 학습의 특성을 지녀 학습속도가 빠르기 때문이다. 특히, 제안한 학습 방법은 일반화 성능의 저하 없이 다른 학습 방법보다 빨리 MLP를 학습시킨다.

서지기타정보

서지기타정보
청구기호 {DEE 99069
형태사항 viii, 98 p. : 삽도 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Sang-Hoon Oh
지도교수의 한글표기 : 이수영
지도교수의 영문표기 : Soo-Young Lee
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 참고문헌 : p. 90-98
주제 오차함수
학습가속
중간층 뉴런
최적 학습률
Error function
Fast training
Hidden neurons
Optimal learning rates
QR CODE qr code