서지주요정보
Policy-based reinforcement learning algorithm and its application to semiconductor fab dispatching rule = Policy 기반 강화학습 알고리즘 연구와 반도체 Fab Dispatching 규칙에 적용
서명 / 저자 Policy-based reinforcement learning algorithm and its application to semiconductor fab dispatching rule = Policy 기반 강화학습 알고리즘 연구와 반도체 Fab Dispatching 규칙에 적용 / Namyong Kim.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036284

소장위치/청구기호

학술문화관(문화관) 보존서고

DIE 20008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper deals with the scheduling optimization based on dispatching rules for the efficient operation of the semiconductor factory. The modern semiconductor plant has a large scale and complex structure. It requires a very high computational cost in the design of sophisticated scheduling. These problems make it difficult to apply popular scheduling methods such as mathematical formulation and meta-heuristic, which require a high computational cost, to semiconductor factory. Therefore, almost manufacturers have been designing the schedule using very simple dispatching rules. However, in order to be a more efficient operation, more sophisticated dispatching rules should be designed for the factory. Thus, in this paper, we proposed the reinforcement learning-based algorithms for the design of more effective and sophisticated dispatching rules. As a first study, we proposed the per-machine linear dispatching rule learning approach for different multi-machines using population-based search. As a second study, to achieve higher data efficiency, we proposed per-machine dispatching rule learning approach using policy gradient, in which actors are decentralized, and critic is centralized. As a third study, we proposed a hybrid algorithm that takes both the advantage of a policy gradient method and a population-based search. Experiments showed that the proposed methods have better performance or data efficiency than existing methodologies.

본 논문은 반도체 공장의 효율적 운영을 위한 Dispatching 기반의 운영계획 최적화 문제를 다룬다. 현대 반도체공장은 매우 큰 규모와 복잡한 구조를 지녀, 정교한 운영계획 설계에 있어 매우 큰 계산비용을 필요로 한다. 이러한 문제는 많은 계산을 요구하는 기존 운영계획 설계방법의 반도체공장에 대한 적용을 어렵게 한다. 이에 대부분의 반도체 공장들은 매우 간단한 Dispatching 규칙을 사용해 운영계획을 설계해 왔다. 그러나 보다 효율적인 공장운영을 위해서는, 더 정교한 Dispatching 규칙이 공장에 맞게 설계되어야 한다. 이에 본 논문에서는 보다 효과적이고 정교한 Dispatching 규칙 설계를 위한 강화학습 기반의 알고리즘을 제안한다. 첫 연구로, 서로 다른 특징을 지닌 장비들의 운영계획설계를 위한 인구기반 탐색을 기반으로 한 장비 별 Dispatching 규칙 학습법을 제안한다. 두 번째 연구로, 데이터효율을 높이기 위해, 다중 에이전트 Policy gradient를 사용한 장비 별 Dispatching 규칙 학습방법을 제안한다. 세 번째 연구로, 데이터효율이 높은 정책 Policy gradient 방법과 다양한 문제에 안정적인 성능을 갖는 인구기반 탐색의 장점을 결합하는 하이브리드 알고리즘을 제안한다. 실험결과는 제안한 알고리즘들이 기존 방법론 보다 성능 또는 데이터효율이 우수함을 나타낸다.

서지기타정보

서지기타정보
청구기호 {DIE 20008
형태사항 iv, 77p : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김남용
지도교수의 영문표기 : Hayong Shin
지도교수의 한글표기 : 신하용
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서