서지주요정보
Decoupled address translation architecture for heterogeneous memory systems = 이종 메모리 시스템을 위한 분리된 주소 변환 구조 연구
서명 / 저자 Decoupled address translation architecture for heterogeneous memory systems = 이종 메모리 시스템을 위한 분리된 주소 변환 구조 연구 / Bokyeong Kim.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034752

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 19019

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The heterogeneous memory has become a promising new solution for satisfying ever growing memory capacity demands in a cost-effective way. In the heterogeneous memory, the fast and high bandwidth memory is used to store performance-critical data, while the slow and low bandwidth memory provides the capacity backup. In supporting such hybridization of memory, the virtual memory system is the key mechanism, which combines different memory components to a single memory view. However, the support for the heterogeneous memory in the conventional virtual memory has an inherent problem. With the dramatic increase of data size, data-centric application is becoming pervasive. For the efficient address translation for data-centric workloads with large footprint, translation lookaside buffers (TLBs) was introduced to conventional systems. Since TLBs cache address mappings on page granularity, the page size has been growing to increase coverage of address translation. However, the heterogeneous memory support requires the fine-grained migration mapping to store only necessary portions of the memory in the precious fast memory. Coarse-grained large page reduces efficiency of heterogeneous memory and causes the severe migration cost. To address the challenges posed by the conflicting goals in the heterogeneous memory support, this paper proposes to decouple the address translation into a two-step process. The decoupling resolves the conflict as the critical core-side TLBs perform the translation to an intermediate address space, and the memory-side translation provides the actual physical location of the memory devices. The first step translation provides memory capacity allocation and permission checking without considering the heterogeneity, while the second step translation enables the heterogeneity-aware page placement. In second step translation, the decoupled architecture also offers flexibility of management granularity in heterogeneous memory. By sampling-based dynamic granularity selection in memory-side, the proposed architecture has adaptive mapping granularity depending on memory usage patterns. The experimental results from multi-core simulations show that the proposed two-step memory virtualization improves the performance by 36% on average compared to the prior heterogeneous memory solution with the conventional virtual memory.

대용량 메모리를 요구하는 데이터 기반 애플리케이션의 필요성이 증가함에 따라 빠른 처리 속도, 높은 대역폭 지원, 대용량 저장 공간의 장점을 모두 이용할 수 있는 이종 메모리 환경이 각광받고 있다. 빠르고 대역폭이 큰 메모리를 자주 접근하는 데이터를 위해 사용하고, 집적도가 높은 메모리를 고효율 데이터 저장에 이용하여 성능과 저장 비용을 모두 향상시킬 수 있다. 일반적으로 적용할 수 있는 소프트 웨어 기반 이종 메모리 관리 방법은 가상 메모리 시스템의 페이지 구조에 기반한다. 그러나 이러한 OS의 관리 방법은 이종 메모리 시스템에 적용하기에 주소 변환의 성능과 메모리 효율성 측면에서 서로 상충하는 지향점을 가진다. 가상 메모리 주소에서 물리적 메모리 주소로의 주소 변환 시 추가적인 메모리 접근으로 인해 발생하는 성능 저하를 줄이기 위해 Translation Lookaside Buffers (TLBs)이 사용된다. 주소 매핑을 캐싱하는 TLB의 한 엔트리는 하나의 페이지 단위 주소 영역에 대한 매핑 정보를 가진다. 따라서 라지 페이지는 TLB가 캐싱할 수 있는 주소 영역 범위를 증가시키고 TLB 미스를 감소시킴으로써 성능을 향상시킬 수 있다. 반면 이종 메모리 시스템에서 라지 페이지는 빠른 메모리의 효율성을 저하시킨다. 빠른 메모리에 자주 사용되는 데이터를 배치하는 것이 성능과 효율성의 측면에서 유리하다. 그러나 한정된 용량의 빠른 메모리에 라지 페이지 단위의 데이터를 배치함으로써, 사용되지 않는 데이터가 기존의 데이터를 쫓아내는 결과를 야기할 수 있다. 또한 라지 페이지 단위의 데이터 마이그레이션으로 인해 메모리 자원을 낭비하고 전반적인 메모리의 성능을 저하시킬 수 있다. 자주 사용되는 데이터를 고성능 메모리에 배치하여 이종 메모리의 장점을 모두 이용하기 위해서는 작은 페이지 크기를 사용하는 것이 더 효율적이다. 이러한 상충되는 목적을 해결하고 주소 변환의 성능과 고성능 메모리의 효율성을 높이기 위해, 본 연구에서는 분리된 주소 변환 구조를 제안한다. 기존의 프로세서 TLB는 가상 메모리 주소에서 새로운 메모리 계층으로의 주소 변환을 수행하고 mem-TLB에서는 이를 물리적 메모리 주소로 변환함으로써, 분리된 주소 변환을 수행한다. OS의 페이지 기반 주소 변환은 그대로 유지하되, 물리적 메모리로의 주소 변환은 더 작은 프레임 단위를 적용하여 라지 페이지로 인한 성능 향상을 유지하면서 효율적으로 메모리 공간을 관리할 수 있다. 추가된 주소 변환으로 인해 발생하는 성능 저하 및 공간 비용을 최소화하는 효율적인 주소 변환 구조를 제안하고, 소프트웨어 기반의 대표적인 메모리 관리 방법인 Heterogeneous Memory Architecture (HMA)를 대상으로 하여 시뮬레이션 실험 환경에서 성능을 평가한다. 또한 최적 성능을 위한 프레임 크기가 애플리케이션의 메모리 사용 패턴에 따라 다르기 때문에, 이를 샘플링하여 최적 프레임 크기를 선택할 수 있는 알고리즘을 제안한다. 동적 프레임 크기를 분리된 주소 변환 구조에 적용하여 4KB 페이지 기반 HMA 시스템 대비 약 36%의 성능 향상을 실험적으로 증명하였다.

서지기타정보

서지기타정보
청구기호 {DCS 19019
형태사항 v, 73 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김보경
지도교수의 영문표기 : Jaehyuk Huh
지도교수의 한글표기 : 허재혁
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 66-70
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서