서지주요정보
Maintenance strategies of multi-component system by reinforcement learning = 강화학습을 활용한 다부품 시스템의 유지 보수 전략
서명 / 저자 Maintenance strategies of multi-component system by reinforcement learning = 강화학습을 활용한 다부품 시스템의 유지 보수 전략 / Stéphane Barde.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030531

소장위치/청구기호

학술문화관(문화관) 보존서고

MIE 17018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, we find optimal or suboptimal policies of different maintenance strategies such as age-based preventive maintenance and opportunistic preventive maintenance of a multi-component system composed of non-identical components by modeling with the MDP formalism and solving it by using model-free reinforcement learning algorithms. On one hand, we model preventive maintenance strategies for an equipment composed of multi-non-identical components which have different time-to-failure probability distribution, by using a Markov Decision Process (MDP). Its originality resides in the fact that a Monte Carlo Reinforcement Learning (MCRL) approach is used to find the optimal policy for each different strategy. The approach is applied to an already existing published application which deals with a fleet of Military trucks. The fleet consists of a group of similar trucks that are composed of non-identical components. The problem is formulated as a MDP and solved by a MCRL technique. The advantage of this modeling technique when compared to the published one is that there is no need to estimate the main parameters of the model, for example the estimation of the transition probabilities. These parameters are treated as variables and they are found by the modeling technique, while searching for the optimal solution. Moreover, the technique is not bounded by any explicit mathematical formula, and it converges to the optimal solution whereas the previous model optimizes the replacement policy of each component separately, which leads to a local optimization. The results show that by using the reinforcement learning approach, we are able of getting a 36.44% better solution that is less downtime. On the other hand, equipment usually consists of many components arranged in hierarchical structure. In order to achieve efficient maintenance strategy, the system hierarchy should be taken into account. In this dissertation, we first give a nomenclature to describe a system composed of multiple non-identical components in a hierarchical structure, then we model the system for an age-based and an opportunistic preventive maintenance strategies by using MDP formalism. Then, we find near-optimal policies through the SARSA algorithm from RL, where we minimize the expected discounted cost. We perform simulation experiments to compare near-optimal policies obtained by SARSA for both strategies with corrective maintenance and with age-based preventive maintenance policy obtained from renewal reward theory. We show that the proposed opportunistic preventive maintenance outperforms other strategies.

본 논문에서는 수명기반 예방정비, 기회주의적 예방정비와 같은 서로 다른 유지보수전략의 최적 정책을 찾는 방법을 제안한다. 비동일한 부품으로 이루어진 다부품 시스템을 대상으로 연구를 진행하였으며, 마르코브 결정 프로세스를 통해 모델링을 한 후, model-free 강화학습을 이용하여 최적의 정책을 구하였다. 이 때, 서로 다른 고장시간 확률 분포를 가진 비동일한 다수 부품으로 이루어진 장비에 대한 예방정비 전략을 마르코브 결정 프로세스를 이용하여 모델링 하였는데, 이 방법은 서로 다른 전략에 대한 최적 정책을 찾을 때 몬테 칼로 강화학습을 사용한다는 점에서 고안되었다. 또, 본 논문에서는 제안하는 접근법을 기존부터 연구가 이루어져 왔던 군용 트럭 함대 문제에 적용시켰다. 함대는 비동일 부품들로 구성된 비슷한 트럭들의 군으로 구성되어 있다. 위 문제를 풀기 위해 MDP를 이용하여 모델링 하였고 MCRL 방법을 이용하여 해를 구하였다. 기존 연구와 비교했을 때, 본 연구에서 제시된 모델링 방법의 장점은 아래와 같다. 먼저, transition 확률과 같은 모델의 주요 매개변수를 추정값을 이용하여 계산하지 않는다. 제안된 방법을 이용하면, 이 매개변수는 변수로 다루어지며 최적 해를 찾는 동안 모델링 방법을 통해 구해진다. 더 나아가, 기존연구는 각 부품들의 교체 정책을 개별적으로 최적화하기 때문에 국소적인 최적 해를 구하는 반면, 본 연구에서 제시하는 방법은 다른 수학 공식들에 한정되지 않고 최적 해로 수렴한다는 장점을 가진다. 연구 결과, 강화학습 방법을 이용하여 다운타임이 36.44%가 감소하였고, 이는 본 연구에서 제시된 방법이 기존 방법보다 최적화 된 해를 얻었음을 보여준다. 한편, 장비들을 이루는 부품들은 보통 계층적으로 배열되어 있는데, 효율적인 유지보수 정책을 얻기 위해서는 시스템의 계층 구조까지 고려되어야 한다. 본 논문에서는 계층 구조의 다수 비동일 부품으로 이루어진 시스템을 설명하기 위해 명명법을 먼저 소개하고, 마르코브 결정 프로세스를 이용하여 수명기반, 기회주의적 예방정비 전략을 모델링한다. 그리고 강화학습에서 나온 예상 감소 비용을 최소화 하는 SARSA 알고리즘을 이용하여 근 최적 정책을 구한다. 시뮬레이션을 통해 실험을 수행하였으며 SARSA 알고리즘으로 두 전략의 근 최적 정책을 얻을 수 있었다. 그 결과, 제시된 기회주의적 예방정비전략이 다른 전략들보다 더 나은 해를 제시한다는 결론을 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {MIE 17018
형태사항 iv, 37 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 스테판
지도교수의 영문표기 : Hayong Shin
지도교수의 한글표기 : 신하용
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 35-36
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서