서지주요정보
강화학습 접근법을 이용한 시간 변동성이 있는 양팔 클러스터 장비의 스케줄링 = Scheduling dual-armed cluster tools with time variation by reinforcement learning
서명 / 저자 강화학습 접근법을 이용한 시간 변동성이 있는 양팔 클러스터 장비의 스케줄링 = Scheduling dual-armed cluster tools with time variation by reinforcement learning / 노지은.
저자명 노지은 ; Roh, Ji Eun
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031921

소장위치/청구기호

학술문화관(문화관) 보존서고

MIE 18011

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

We examine scheduling problems of dual-armed cluster tools for semiconductor manufacturing, each of which consists of several single-wafer processing chambers and a wafer-handling robot. There have been numerous works on cluster tool scheduling. However, most of them focus on fixed robot task sequences such as swap sequence, which disregards the tool state by assuming deterministic process and task times and no disruptive events. In this thesis, we examine a scheduling method that dynamically determines the next robot task depending on the tool state when the process times are subject to random variation. To do this, we develop a way of applying reinforcement learning that improves the dynamic scheduling rules by learning from the data generated by tool simulation. We propose a state definition, an action-selection rule, and an extended feature structure for reinforcement learning. We use a deep neural network for reinforcement learning than conventional Q-learning that is proven to have worse performance in our preliminary experiments. We compare the makespans of the conventional swap sequence and the rules learned by reinforcement learning. We observed that the reinforcement learning method finds equivalent or better scheduling rules than the swap sequence. We also identified a generalization property that the learning scheduling rules are effective also for different problems instances with different process times. We also found that the reinforcement learning method is also effective against the case where chambers are cleaned after each wafer processing.

본 논문에서는 반도체 제조 공정에서 사용되는 양팔 클러스터 장비를 연구한다. 클러스터 장비는 한 번에 한 장의 웨이퍼를 가공하는 대표적인 반도체 공정 장비로 반도체 산업에서 널리 사용되고 있다. 클러스터 장비 스케줄링을 위한 다양한 연구가 진행됐지만, 대부분의 연구는 확정적인 공정 및 공정 소요 시간을 고려하며 예외 상황을 고려하지 않는 환경을 가정해왔다. 따라서 해당 연구들은 장비 상태에 무관한 고정적인 로봇 작업 순서에 초점을 맞추어 진행되어왔다. 본 연구에서는 공정 소요 시간의 변동성이 있는 환경에서, 장비 상태에 따라 다음 로봇 작업을 동적으로 결정하는 스케줄링 방법을 제안한다. 장비 시뮬레이션으로 생성한 데이터를 바탕으로 동적 스케줄링 규칙을 학습하는 강화학습 방식을 적용한다. 클러스터 장비와 시간 변동성의 특성을 반영한 상태 정의, 새로운 행동-선택 규칙, 그리고 확장된 입력 특징 구조를 제시하며, 딥 신경망 구조를 사용하여 얻은 학습된 스케줄을 바탕으로 메이크스팬을 측정하고 스왑 시퀀스에서의 메이크스팬과 비교를 통해 학습된 스케줄의 성능을 비교하고 분석한다. 메이크스팬 비교를 통해 강화학습은 스왑 시퀀스와 비슷하거나 더 나은 성능을 나타내는 스케줄링 규칙을 얻었음을 확인하였다. 또한, 학습된 스케줄링 규칙이 다른 공정 시간을 갖는 문제 인스턴스에 대해서도 효율적으로 일반화됨을 보였으며, 웨이퍼 공정 후 챔버를 클리닝하는 상황에서도 강화학습 방법이 적용되는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MIE 18011
형태사항 vi, 42 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Ji Eun Roh
지도교수의 한글표기 : 이태억
지도교수의 영문표기 : Tae-Eog Lee
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 참고문헌 : p. 40-42
주제 양팔 클러스터 장비
스케줄링
공정 시간 변동
강화학습
딥 강화학습
dual-armed cluster tool
scheduling
processing time variation
reinforcement learning
deep reinforcement learning
QR CODE qr code