서지주요정보
High-throughput system design with memory networks = 메모리 네트워크에 기반한 대용량 계산 시스템 설계에 관한 연구
서명 / 저자 High-throughput system design with memory networks = 메모리 네트워크에 기반한 대용량 계산 시스템 설계에 관한 연구 / Gwangsun Kim.
저자명 Kim, Gwangsun ; 김광선
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034207

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 16041

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Recent advances in 3D integration technology and the high-bandwidth demand of modern processors led to the development of 3D-stacked memory devices such as Hybrid Memory Cube (HMC) that improve DRAM bandwidth while reducing energy cost. One of the salient features of the HMC is the routing capability provided by the logic layer that enables creating a memory network. Memory networks pose new opportunities in system design to enables efficient communication among different processors in a system, which can also lead to improved programmability. We first explore the design space of the system interconnect, which defines the connectivity of multiple processors and memory devices in a system. We show the limitations of the conventional system interconnect design, which we classify as a processor-centric network (PCN), in flexibly utilizing the processor bandwidth. By leveraging the routing capability of HMCs, we propose a memory-centric network (MCN), which can enable full processor bandwidth utilization for different traffic patterns. The MCN leads to challenges including higher processor-to-processor latency and the need to properly exploit the path diversity. Thus, we propose a distributor-based network and pass-through microarchitecture to reduce network diameter and per-hop latency, while leveraging the path diversity within the memory network to provide high throughput for adversarial traffic patterns. Meanwhile, GPUs, which are commonly used to accelerate various workloads, employ the PCIe interface, and can suffer from two major communication bottlenecks ? accessing remote GPU memory and the host CPU memory ? that lead to programmability challenges. This work leverages the memory network to simplify memory management and proposes scalable kernel execution (SKE) where multiple GPUs are encapsulated as a single virtual GPU to improve programmability. In addition, we propose a unified memory network (UMN) which combines the CPU memory network and GPU memory network to provide high bandwidth between CPU and multiple GPUs while eliminating memory copy overhead. In order to meet the high bandwidth requirement of the GPU and low latency requirement of the CPU, we propose a sliced flattened butterfly topology which provides high network bandwidth at low cost and an overlay network architecture to minimize CPU packet latency. The memory network and the logic layer of 3D-stacked memory device that can provide computational capability also pose the opportunity for near-data processing (NDP) which has the potential to address several obstacles for modern computer systems such as memory bandwidth and energy efficiency. Furthermore, a standardization of NDP interface can achieve more pervasive use of NDP across a wide range of systems, leveraging economies of scale across the industry. In order to overcome the challenge of performing address translation in an architecture-neutral manner to provide access to data distributed across multiple memory stacks in NDP, we propose a partitioned execution model, which removes the need for an architecture-specific MMU or TLB in the logic layer. In addition, instead of employing a data cache in the logic layer, we introduce NDP buffers to avoid the the issue of cache coherence among the main processor and multiple memory stacks. As offloading too much computation to NDP logic can degrade performance by making it a bottleneck, we also low-complexity, dynamic offload decision mechanisms to enable high speedup as well as energy reduction.

최근 3차원 집적 회로 기술의 발전과 높은 메모리 대역폭에 대한 필요성으로 인하여 Hybrid Memory Cube(HMC)와 같이 대역폭과 에너지 효율성을 향상시킨 3차원 적층 메모리 장치가 개발되었다. HMC의 중요한 특징은 논리층에서 라우팅 기능을 제공한다는 것인데, 이를 통해서 구성할 수 있는 메모리 네트워크는 시스템 내의 여러 프로세서와 메모리 장치간의 효율적인 통신 수단을 제공한다. 따라서 이는 시스템 설계에 새로운 기회를 제공하고 이로써 프로그램용이성을 향상시키는 것도 가능해진다. 이 연구는 우선 시스템 내의 여러 프로세서와 메모리 장치간의 연결 구조를 정의하는 시스템 인터커넥트의 설계 공간을 탐색한다. 이 연구는 기존의 시스템 인터커넥트 설계방식을 프로세서-중심 네트워크(Processor-centric Network, PCN)라 부르고 이 구조가 프로세서 대역폭을 유연성있게 사용하는 데에 한계가 있음을 밝힌다. 그리고 HMC의 라우팅 기능을 활용하여 다양한 트래픽 패턴에 대해 프로세서의 총 대역폭을 유연성있게 사용하는 것을 가능하게 하는 메모리-중심 네트워크(Memory-centric Network, MCN)을 제안한다. 그러나 MCN은 PCN에 비해 프로세서간의 통신 지연시간을 증가시킬 수 있으므로, 이 연구에서는 분배기에 기반한 네트워크 구조와 패스스루(Pass-thru) 마이크로아키텍처를 제안하여 네트워크 직경과 홉(hop)당 지연시간을 감소시킨다. 또한 메모리 네트워크는 각 메모리 장치에 대해 여러 접근 경로를 제공할 수 있으므로, 이 구조에 적응형 라우팅 알고리즘을 사용하면 적대적 트래픽 패턴에 대해 높은 대역폭을 제공할 수 있음을 보인다. 한편 최근의 시스템에서는 다양한 애플리케이션을 가속시키기 위해 GPU를 많이 사용하는 경우가 많은데, GPU가 대개 사용하는 PCIe 인터페이스는 다른 GPU 또는 호스트 CPU의 메모리에 접근하는 데에 병목이 될 수 있고 이는 프로그램용이성을 저해할 수 있다. 이에 이 연구에서는 메모리 네트워크를 기반으로 하여 메모리 관리를 단순화하고, 프로그래밍용이성을 향상시키기 위해 여러 GPU들을 하나의 가상 GPU로 캡슐화하는 스케일러블 커널 실행(Scalable Kernel Execution, SKE) 모델을 제안한다. 더불어 이 연구는 CPU 메모리 네트워크와 GPU 메모리 네트워크를 하나로 합치는 통합된 메모리 네트워크(Unified Memory Network, UMN)를 제안하여 CPU와 GPU간의 높은 통신 대역폭을 제공하고 메모리 복사 오버헤드를 제거한다. 또한 GPU는 높은 네트워크 대역폭을 필요로 하는 반면 CPU는 낮은 지연시간을 필요로 하므로, GPU를 위해 높은 대역폭을 제공하면서 네트워크 비용을 줄인 sliced flattened butterfly 토폴로지와 CPU 패킷 지연시간을 최소화하는 오버레이 네트워크 구조를 제안한다. 메모리 네트워크와 3차원 적층 메모리 장치가 논리층에서 제공하는 계산 기능은 근접-메모리 처리 (Near-data Processing, NDP)를 실현할 기회를 제공하는데, 이는 메모리 대역폭과 에너지 효율성 문제와 같이 현대의 컴퓨터가 직면한 여러 한계점을 극복할 잠재력을 가지고 있다. 또한 표준화된 NDP 인터페이스는 규모의 경제를 통해 다양한 시스템에 NDP가 도입되는 데에 중요한 역할을 할 것이다. 따라서 이 연구에서는 여러 메모리 장치에 분산된 데이터를 NDP를 통해 처리하는 것을 가능하게 하면서 메모리 장치의 논리층에서 아키텍처에 종속적인 MMU나 TLB를 필요로 하지 않도록 하는 분할 실행(Partitioned execution) 모델을 제안한다. 또한 NDP를 위해 논리층에 데이터 캐쉬를 도입하는 것은 주 프로세서와 메모리 장치간의 캐쉬 일관성을 유지해야 하는 문제를 야기하므로 이 연구에서는 데이터 캐쉬 대신 NDP 버퍼를 도입하는 구조를 제안한다. 마지막으로 NDP 장치로 너무 많은 계산을 오프로드(offload)하면 NDP 장치가 병목이 되어 성능이 하락할 수 있으므로, 이 연구는 복잡도를 최소화하면서 동적으로 오프로드 여부를 결정하는 메커니즘을 제안하여 성능과 에너지 효율성을 향상시킨다.

서지기타정보

서지기타정보
청구기호 {DCS 16041
형태사항 vii, 78 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김광선
지도교수의 영문표기 : John Dongjun Kim
지도교수의 한글표기 : 김동준
수록잡지명 : "Memory-centric system interconnect design with Hybrid Memory Cubes". Proceedings of the 22nd International Conference on Parallel Architectures and Compilation Techniques, N/A, 145-155(2013)
수록잡지명 : "Multi-GPU System Design with Memory Networks". Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, N/A, 484-495(2014)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 68-75
주제 Memory network
3D-stacked memory
multi-socket system
multi-GPU system
near-data Processing
메모리 네트워크
3차원 적층 메모리
멀티-소켓 시스템
멀티-GPU 시스템
메모리-근접 계산
QR CODE qr code