This research proposes a dispatching policy optimization procedure for the initial process of manufacturing systems where new jobs arrive continuously. In particular, instead of solving the optimization problem at regular intervals, we focused on obtaining a single policy that can generate a good schedule in various scenarios through learning. To achieve this, the problem was divided into the following three themes. 1) How to generate realistic demand data for training purposes. 2) How to find good features to use in dispatching policies, as well as how to learn the policy function using multiple demand data from a single objective view. 3) How to learn policy function from a multi-objective view. Each topic is combined to provide practical solutions to scheduling problems that reflect real-world factory sizes and constraints.
이 연구는 작업물이 연속해서 도착하는 제조 시스템의 초기 공정을 위한 디스패칭 정책 최적화 과정을 제시한다. 특히, 일정 주기마다 최적화 문제를 풀지 않고, 학습을 통해 다양한 상황에서 좋은 스케쥴을 낼 수 있는 하나의 정책을 얻는 것에 집중했다. 이를 달성하기 위해 다음 3가지 주제로 문제를 나누어 접근하였다. 1) 학습에 사용할 사실적인 수요 데이터 생성. 2) 디스패칭 정책에 사용될 좋은 특성을 찾고, 단일 목표 관점에서 여러 수요 데이터를 활용하여 학습하는 방법. 3) 다중 목표 관점에서 학습하는 방법. 각 일련의 주제는 한데 어우러져, 실제 공장 크기와 제약 조건을 반영한 스케쥴링 문제에 실용적인 해답을 제시한다.