서지주요정보
Policy-based reinforcement learning algorithm and its application to semiconductor fab dispatching rule = Policy 기반 강화학습 알고리즘 연구와 반도체 Fab Dispatching 규칙에 적용
서명 / 저자 Policy-based reinforcement learning algorithm and its application to semiconductor fab dispatching rule = Policy 기반 강화학습 알고리즘 연구와 반도체 Fab Dispatching 규칙에 적용 / Namyong Kim.
저자명 Kim, Namyong ; 김남용
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036284

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DIE 20008

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

This paper deals with the scheduling optimization based on dispatching rules for the efficient operation of the semiconductor factory. The modern semiconductor plant has a large scale and complex structure. It requires a very high computational cost in the design of sophisticated scheduling. These problems make it difficult to apply popular scheduling methods such as mathematical formulation and meta-heuristic, which require a high computational cost, to semiconductor factory. Therefore, almost manufacturers have been designing the schedule using very simple dispatching rules. However, in order to be a more efficient operation, more sophisticated dispatching rules should be designed for the factory. Thus, in this paper, we proposed the reinforcement learning-based algorithms for the design of more effective and sophisticated dispatching rules. As a first study, we proposed the per-machine linear dispatching rule learning approach for different multi-machines using population-based search. As a second study, to achieve higher data efficiency, we proposed per-machine dispatching rule learning approach using policy gradient, in which actors are decentralized, and critic is centralized. As a third study, we proposed a hybrid algorithm that takes both the advantage of a policy gradient method and a population-based search. Experiments showed that the proposed methods have better performance or data efficiency than existing methodologies.

본 논문은 반도체 공장의 효율적 운영을 위한 Dispatching 기반의 운영계획 최적화 문제를 다룬다. 현대 반도체공장은 매우 큰 규모와 복잡한 구조를 지녀, 정교한 운영계획 설계에 있어 매우 큰 계산비용을 필요로 한다. 이러한 문제는 많은 계산을 요구하는 기존 운영계획 설계방법의 반도체공장에 대한 적용을 어렵게 한다. 이에 대부분의 반도체 공장들은 매우 간단한 Dispatching 규칙을 사용해 운영계획을 설계해 왔다. 그러나 보다 효율적인 공장운영을 위해서는, 더 정교한 Dispatching 규칙이 공장에 맞게 설계되어야 한다. 이에 본 논문에서는 보다 효과적이고 정교한 Dispatching 규칙 설계를 위한 강화학습 기반의 알고리즘을 제안한다. 첫 연구로, 서로 다른 특징을 지닌 장비들의 운영계획설계를 위한 인구기반 탐색을 기반으로 한 장비 별 Dispatching 규칙 학습법을 제안한다. 두 번째 연구로, 데이터효율을 높이기 위해, 다중 에이전트 Policy gradient를 사용한 장비 별 Dispatching 규칙 학습방법을 제안한다. 세 번째 연구로, 데이터효율이 높은 정책 Policy gradient 방법과 다양한 문제에 안정적인 성능을 갖는 인구기반 탐색의 장점을 결합하는 하이브리드 알고리즘을 제안한다. 실험결과는 제안한 알고리즘들이 기존 방법론 보다 성능 또는 데이터효율이 우수함을 나타낸다.

서지기타정보

서지기타정보
청구기호 {DIE 20008
형태사항 iv, 77p : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김남용
지도교수의 영문표기 : Hayong Shin
지도교수의 한글표기 : 신하용
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p.
주제 Dispatching Rule
Reinforcement Learning
Policy Gradient
Evolutionary Approach
Hybrid Algorithm
Dispatching 규칙
강화학습
Policy Gradient
진화론적 접근법
하이브리드 알고리즘
QR CODE qr code