We examine scheduling problems of dual-armed cluster tools for semiconductor manufacturing, each of which consists of several single-wafer processing chambers and a wafer-handling robot. There have been numerous works on cluster tool scheduling. However, most of them focus on fixed robot task sequences such as swap sequence, which disregards the tool state by assuming deterministic process and task times and no disruptive events. In this thesis, we examine a scheduling method that dynamically determines the next robot task depending on the tool state when the process times are subject to random variation. To do this, we develop a way of applying reinforcement learning that improves the dynamic scheduling rules by learning from the data generated by tool simulation. We propose a state definition, an action-selection rule, and an extended feature structure for reinforcement learning. We use a deep neural network for reinforcement learning than conventional Q-learning that is proven to have worse performance in our preliminary experiments. We compare the makespans of the conventional swap sequence and the rules learned by reinforcement learning. We observed that the reinforcement learning method finds equivalent or better scheduling rules than the swap sequence. We also identified a generalization property that the learning scheduling rules are effective also for different problems instances with different process times. We also found that the reinforcement learning method is also effective against the case where chambers are cleaned after each wafer processing.
본 논문에서는 반도체 제조 공정에서 사용되는 양팔 클러스터 장비를 연구한다. 클러스터 장비는 한 번에 한 장의 웨이퍼를 가공하는 대표적인 반도체 공정 장비로 반도체 산업에서 널리 사용되고 있다. 클러스터 장비 스케줄링을 위한 다양한 연구가 진행됐지만, 대부분의 연구는 확정적인 공정 및 공정 소요 시간을 고려하며 예외 상황을 고려하지 않는 환경을 가정해왔다. 따라서 해당 연구들은 장비 상태에 무관한 고정적인 로봇 작업 순서에 초점을 맞추어 진행되어왔다. 본 연구에서는 공정 소요 시간의 변동성이 있는 환경에서, 장비 상태에 따라 다음 로봇 작업을 동적으로 결정하는 스케줄링 방법을 제안한다. 장비 시뮬레이션으로 생성한 데이터를 바탕으로 동적 스케줄링 규칙을 학습하는 강화학습 방식을 적용한다. 클러스터 장비와 시간 변동성의 특성을 반영한 상태 정의, 새로운 행동-선택 규칙, 그리고 확장된 입력 특징 구조를 제시하며, 딥 신경망 구조를 사용하여 얻은 학습된 스케줄을 바탕으로 메이크스팬을 측정하고 스왑 시퀀스에서의 메이크스팬과 비교를 통해 학습된 스케줄의 성능을 비교하고 분석한다. 메이크스팬 비교를 통해 강화학습은 스왑 시퀀스와 비슷하거나 더 나은 성능을 나타내는 스케줄링 규칙을 얻었음을 확인하였다. 또한, 학습된 스케줄링 규칙이 다른 공정 시간을 갖는 문제 인스턴스에 대해서도 효율적으로 일반화됨을 보였으며, 웨이퍼 공정 후 챔버를 클리닝하는 상황에서도 강화학습 방법이 적용되는 것을 확인하였다.