Increasing complexity and amount of computation for deep learning are driving the need for multi-GPU systems. To accelerate deep learning training, communication efficiency between GPUs is becoming very critical to determine the overall performance of the system. In this work, we first modeled the state of the art collective communication library in the Multi-GPU Simulator and to accelerate collective communication, we propose an integrated router architecture that uses in-network buffering and in-network computation. With integrated router, we can eliminate the overhead of point-to-point communication that must pass through intermediate nodes, achieve lower memory access latency through in-network buffering, and eliminate resource contention overhead through in-network computation. Finally, we show about 16% improvement in bandwidth utilization and 2.7x faster speed up.
딥러닝의 사용되는 모델의 복잡도 증가와 높은 수준의 연산량은 다중 그래픽 카드 시스템의 필요성을 더욱 부각시키고 있다. 딥러닝 훈련 과정을 가속화하기 위해 그래픽 카드간의 통신 효율성은 시스템의 전 반적인 성능을 결정하는 만큼 매우 중요하다. 이 논문을 통해 우리는 최초로 다중 그래픽 카드 시뮬레이터에서 군집 통신을 모델링하고 인-네트워크 버퍼링과 인-네트워크 컴퓨테이션을 사용하는 인테그레이티드 라우터 아키텍쳐를 제안한다. 인테그레이티드 라우터를 도입함으로써 우리는 중간 노드를 경유해야만 하는 점대점 통신의 문제점을 제거할 수 있었다. 또한 인-네트워크 버퍼링을 통하여 더 낮은 메모리 접근 시간을 제공할 수 있었고 인-네트워크 컴퓨테이션을 통해 자원 경쟁 문제를 제거할 수 있었다. 결과적으로 군집 통신의 약 16%의 전송 효율증가와 2.7배 빨라진 실행속도를 달성하였다.