Recently, several cloud companies have released various types of hardware accelerator cloud products. For example, AWS GPU-type instances and inference-specific instances were released, and Google released dedicated instances such as TPU (Tensor Processing Unit). Cloud instances for inference are becoming more diverse as the years go by, and heterogeneity is also emerging in the cloud environment that constitutes a group of instances. In addition, various Machine Learning (ML) models are emerging in various fields for text analysis, text generation, and sound classification as well as image classification. In situations where there is a need for large-scale ML, it is necessary to analyze the performance/cost correlation between various cloud instances, and various ML models, for efficiency. This study introduces the StageH system. StageH was implemented in a distributed and heterogeneous cloud environment. Various ML models (e.g., RESNET, BERT, GPT, YAMNET, INCEPTI ON) keep the SLO as much as possible in the cloud environment where it is executed. In addition, cost-effective autoscaling algorithm saves costs in a cloud environment.
최근 들어, 여러 클라우드 업체들은 다양한 종류의 hardware accelerator 관련된 제품들을 출시 하고 있다. (예를 들어서, AWS는 GPU 계열의 인스턴스, inference 전용 인스턴스를 출시 하였고, Google은 TPU와 같은 전용 인스턴스를 출시 하였다). 인퍼런스를 위한 클라우드 인스턴스들은 해가 갈수록 종류가 다양 해지고 있으며, 인스턴스의 그룹을 구성하는 cloud 환경에서도 hetero 한 상황이 도래하고 있다. 더불어, ML(Machine Learning) model도 image classificaiton 뿐만 아니라, text analysis, text generation, sound classification 등 다양한 영역에서 다양한 ML model이 생겨나고 있다. 대규모 ML에 대한 필요가 있는 상황에서는 다양한 클라우드 인스턴스 와 다양한 ML model 간의 성능/비용의 상관관계를 분석하여 효율화 할 필요가 있다. 본 연구 에서는 StageH 시스템을 소개 한다. StageH는 분산 및 heterogeneous 클라우드 환경에서 구현 되었다. 다양한 ML model (e.g. RESNET, BERT, GPT, YAMNET, INCEPTION) 이 실행되는 클라우드 환경에서 SLO를 최대한 지킨다. 또한, 비용 효율적인 autoscaling을 알고리즘을 통해서 클라우드 환경에서의 비용을 절약 한다.