This paper deals with the scheduling optimization based on dispatching rules for the efficient operation of the semiconductor factory. The modern semiconductor plant has a large scale and complex structure. It requires a very high computational cost in the design of sophisticated scheduling. These problems make it difficult to apply popular scheduling methods such as mathematical formulation and meta-heuristic, which require a high computational cost, to semiconductor factory. Therefore, almost manufacturers have been designing the schedule using very simple dispatching rules. However, in order to be a more efficient operation, more sophisticated dispatching rules should be designed for the factory. Thus, in this paper, we proposed the reinforcement learning-based algorithms for the design of more effective and sophisticated dispatching rules. As a first study, we proposed the per-machine linear dispatching rule learning approach for different multi-machines using population-based search. As a second study, to achieve higher data efficiency, we proposed per-machine dispatching rule learning approach using policy gradient, in which actors are decentralized, and critic is centralized. As a third study, we proposed a hybrid algorithm that takes both the advantage of a policy gradient method and a population-based search. Experiments showed that the proposed methods have better performance or data efficiency than existing methodologies.
본 논문은 반도체 공장의 효율적 운영을 위한 Dispatching 기반의 운영계획 최적화 문제를 다룬다. 현대 반도체공장은 매우 큰 규모와 복잡한 구조를 지녀, 정교한 운영계획 설계에 있어 매우 큰 계산비용을 필요로 한다. 이러한 문제는 많은 계산을 요구하는 기존 운영계획 설계방법의 반도체공장에 대한 적용을 어렵게 한다. 이에 대부분의 반도체 공장들은 매우 간단한 Dispatching 규칙을 사용해 운영계획을 설계해 왔다. 그러나 보다 효율적인 공장운영을 위해서는, 더 정교한 Dispatching 규칙이 공장에 맞게 설계되어야 한다. 이에 본 논문에서는 보다 효과적이고 정교한 Dispatching 규칙 설계를 위한 강화학습 기반의 알고리즘을 제안한다. 첫 연구로, 서로 다른 특징을 지닌 장비들의 운영계획설계를 위한 인구기반 탐색을 기반으로 한 장비 별 Dispatching 규칙 학습법을 제안한다. 두 번째 연구로, 데이터효율을 높이기 위해, 다중 에이전트 Policy gradient를 사용한 장비 별 Dispatching 규칙 학습방법을 제안한다. 세 번째 연구로, 데이터효율이 높은 정책 Policy gradient 방법과 다양한 문제에 안정적인 성능을 갖는 인구기반 탐색의 장점을 결합하는 하이브리드 알고리즘을 제안한다. 실험결과는 제안한 알고리즘들이 기존 방법론 보다 성능 또는 데이터효율이 우수함을 나타낸다.