서지주요정보
Improving GPGPU resource utilization through alternative thread block scheduling = 스레드 블록 스케쥴링을 통한 GPGPU 자원 활용도 향상
서명 / 저자 Improving GPGPU resource utilization through alternative thread block scheduling = 스레드 블록 스케쥴링을 통한 GPGPU 자원 활용도 향상 / Min-Seok Lee.
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026547

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 14025

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

High performance in GPGPU workloads is obtained by maximizing parallelism and fully utilizing the available resources. The thousands of threads are assigned to each core in units of CTA (Cooperative Thread Arrays) or thread blocks to maximize performance and resource utilization { with each thread block consisting of multiple warps or wavefronts. The scheduling of the threads can have significant impact on overall performance and most prior work in GPGPU architecture have focused on warp or wavefront scheduling within each core. However, in this work, we explore alternative thread block or CTA scheduling and its impact on overall performance. In this work, we explore two aspects of thread block scheduling { 1) LCS (lazy CTA scheduling) which restricts the maximum number of CTAs assigned to each core, and 2) BCS (block CTA scheduling) where consecutive CTAs are assigned to the same core. We also evaluate the interaction between thread block and warp scheduling and proper combination of CTA and warp scheduling can improve performance over state-of-the-art warp-only scheduling -- while avoiding the complexity of warp schedulers. With LCS and the observation that maximum number of CTAs does not necessary maximize performance, we propose mixed concurrent kernel execution that enables multiple kernels to be allocated to the same core to maximize resource utilization and improve overall performance.

GPGPU 애플리케이션은 병렬성을 최대로 높이고 이용 가능한 리소스를 최대로 활용함으로써 성능을 높이려고 한다. 각 코어에 스레드 블록 (몇 개의 워프로 구성) 단위로 수천 개의 스레드를 할당하여 성능과 리소스 활용도를 높이는 것이다. 스레드 스케쥴링은 전체적인 성능에 매우 중요한 영향을 미치는데 기존 연구는 대부분 코어에서 워프 스케쥴링을 어떻게 할 것인가에 치중했다. 그러나 본 연구에서는 두가지 새로운 스레드 블록 스케쥴링과 이것이 성능에 미치는 영향에 대해 탐구한다. 첫째는 각 코어에 할당되는 스레드 블록 수를 줄이는 LCS (Lazy CTA Scheduling)이고 두번째는 스레드 블록 간 데이터 지역성을 활용하기 위해 연속된 스레드 블록을 같은 코어에 할당하는 BCS (Block CTA Scheduling)이다. 또한 본 연구에서는 스레드 블록 스케쥴링과 워프 스케쥴링 사이의 상호 작용에 대해 논의하고 두 스케쥴링 사이의 적절한 혼합이 state-of-art 워프 스케쥴링보다 더 작은 복잡도로 더 높은 성능을 낼 수 있다는 것을 보인다. 마지막으로 한 코어에 스레드 블록을 최대로 할당하는 것이 항상 최적의 성능을 내는 것은 아니라는 관찰 결과를 토대로 LCS를 이용하여 CTA 수를 줄인 후 여러 커널을 같은 코어에 할당하고 리소스 활용도 및 성능을 높이는 mixed Concurrent Kernel Execution을 제안한다.

서지기타정보

서지기타정보
청구기호 {MCS 14025
형태사항 v, 31 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이민석
지도교수의 영문표기 : Dong-Jun Kim
지도교수의 한글표기 : 김동준
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 27-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서