Machine learning has recently been in the spotlight as a solution to problems that were difficult to solve. Distributed processing techniques using graphic processing devices are widely used to deal with the vast amount of data needed to learn neural networks in deep learning, the most widely used type of machine learning, and thus collective communication within distributed systems exists as the main performance bottleneck and impairs the scalability of the system. In this dissertation, we would like to propose techniques and computer architectures that address communication bottlenecks and improve learning performance, considering the characteristics of the intermediate values of collective communication, the multilayer properties of deep learning, and the structure of distributed systems that perform actual computations.
기존의 해결하기 어려웠던 문제들의 해법으로 머신 러닝이 최근 각광받고 있다. 머신 러닝의 종류 중 가장 널리 쓰이는 딥 러닝에서 신경회로망을 학습할 때 필요한 방대한 데이터를 다루기 위해 그래픽 처리 장치를 이용한 분산 처리 기법이 널리 사용되고 있고 그에 따라 분산 시스템 내부의 집단 통신이 주된 성능 병목으로 존재하고 시스템의 확장성을 저해하고 있다. 본 학위논문에서는 집단 통신과 딥 러닝 학습 계산의 특성을 통합적으로 고려하는데, 집단 통신의 중간 값의 특징과 딥 러닝의 다층적 성질을 이용하고 실제 연산을 수 행하는 분산 시스템의 구조를 고려하여 통신 병목을 해소하고 학습 성능을 개선하는 기법 및 컴퓨터 구조를 제안하고자 한다.