Today's cloud vendors offer Machine Learning as a Service (MLaaS). Unlike the training process, inference does not require high computational power, and inference using GPUs does not fully utilize the computational power of the device. The recently proposed GPU allows providers to partition single GPU into units of a size suitable for the degree of user's request and provides the ability to lower their Total Cost of Ownership (TCO) through increased computational utilization. This dissertation proposes a method of improving the compute utilization through heterogeneity of the multi-GPU server. The sophisticated partitioning algorithm proposed (PARIS) heterogeneizes inference servers based on the model and the characteristics of the environment, and guarantees Service Level Agreement (SLA) through the appropriate scheduling method (ELSA). The proposed partitioning and scheduling algorithm achieves an maximum 17.4x and 1.8x improvement in latency and throughput, respectively.
오늘날 많은 클라우드 제공 업체에서는 기계 학습 추론을 서비스로 제공한다. 추론 과정은 학습 과정과 달리 높은 연산 능력을 필요로 하지 않고, 이로 인해 그래픽 처리 장치(GPU)를 사용한 추론 과정은 장치의 연산 능력 활용도가 매우 낮다. 최근 제안된 재구성이 가능한 그래픽 처리 장치는 단일 하드웨어를 물리적으로 분할함으로서 사용자의 요청 정도에 적합한 크기의 단위로 분할하는 등, 연산 활용도의 증진을 통해 서비스 제공 업체가 총 소유 비용(TCO)을 절감할 수 있는 기능을 제공한다. 본 학위 논문은 그래픽 처리 장치 환경의 이기종화를 통한 서버의 연산 능력 향상 방법을 제안한다. 본 학위 논문에서 제안하는 정교한 분할 알고리즘은 추론 모델과 환경의 특성을 기반으로 서버를 이기종화하고, 이에 적합한 스케줄링 방법을 통해 서비스 수준 계약을 보장한다. 제안한 분할 알고리즘 및 스케줄링 방법은 지연시간 및 처리량을 최대 17.4배, 1.8배 향상시킬 수 있다.