서지주요정보
Bandwidth-efficient mobile geometry processor with tessellation functionality and power-saving techniques = 효율적 메모리 대역폭 사용과 전력소모 감소를 위한 테셀레이션 가능 모바일 기하 프로세서에 관한 연구
서명 / 저자 Bandwidth-efficient mobile geometry processor with tessellation functionality and power-saving techniques = 효율적 메모리 대역폭 사용과 전력소모 감소를 위한 테셀레이션 가능 모바일 기하 프로세서에 관한 연구 / Kyu-Sik Chung.
저자명 Chung, Kyu-Sik ; 정규식
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020794

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 09034

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

3D graphics hardware for mobile multimedia devices should be implemented within limited memory bandwidth, area, and power budget. Among various bandwidth-saving techniques, tessellation reduces the amount of geometry data transfer by generating highly detailed geometry from coarse meshes inside the 3D graphics hardware. Despite its obvious effectiveness, only a few high-performance gaming systems have integrated dedicated tessellators with additional floating-point datapath and complex control logic. In this thesis, we propose the architecture of a shader-based tessellator for mobile 3D graphics. The proposed tessellator is implemented with a negligible hardware penalty because floating-point computations of tessellation are accelerated by the existing GPU pipeline and only tessellation-specific control logic is handled by an additional hardware unit. Tightly coupled with a vertex shader, the additional unit dynamically produces topological configurations and parametric coordinates of refinement patterns in the type of indexed triangle strips for object-level adaptive tessellation. The crack-free topological configurations improve the efficiency of a vertex cache so as to avoid redundant shader operations. In addition to the tessellation functionality, the shader architecture is enhanced for area and energy efficiency as well as higher performance. The latency of floating-point datapath is reduced by adopting fast DP4 units. The floating-point computations of the special function unit are also performed by the DP4 units to improve area efficiency. Clock gating by tool-based automatic method and manual clock-gating cell insertion reduces unnecessary power dissipation of idle modules. We additionally reduce redundant on-chip memory accesses by utilizing the operational characteristics of the multi-threaded shader architecture and reducing the size of frequently accessed general purpose registers. The proposed geometry processor is fabricated on three chips using 0.18μm standard CMOS technology. With about 7\% additional hardware to a dual-core vertex shader, the implemented chip performs 120Mvertices/s vertex shading and up to 250 times vertex bandwidth-saving tessellation at 100MHz operating frequency. In addition, various power-saving techniques save 54.8\% of power dissipation for the third chip implementation result.

모바일 멀티미디어 디바이스를 위한 3차원 그래픽스 하드웨어는 SoC (System-on-a-Chip) 환경에서 구현되므로 제한된 면적 내에서 적은 양의 전력과 메모리 대역폭을 사용하도록 구현되어야 한다. 메모리 대역폭의 사용량을 줄이는 다양한 기법 중 테셀레이션은 그래픽스 하드웨어 내부적으로 기하 데이터를 생성함으로써 기하 데이터의 전송량을 줄인다. 그러나 테셀레이션의 이러한 이점에도 불구하고 이를 별도의 하드웨어로 처리하려면 부동소수점 연산기와 제어 로직의 추가로 인한 부담이 커 현재까지 모바일 SoC 환경에서 구현되지 못하였고 주로 PC나 게임기를 위한 고성능 그래픽스 하드웨어에 구현되었다. 본 연구에서는 모바일 3차원 그래픽스 하드웨어를 위한 쉐이더 기반의 테셀레이터 구조인 TES (tessellation-enabled shader)를 제안하였다. 제안한 테셀레이터는 전체 테셀레이션 연산 중 저품질 입력 데이터에 대한 처리와 다항식 연산을 기존 쉐이더의 부동소수점 연산기로 처리하고 테셀레이션에 특화된 제어로직 중심의 연산을 별도의 하드웨어로 처리함으로써 테셀레이터의 구현 부담을 대폭 낮추었다. 추가된 별도의 하드웨어는 PCGU (parametric coordinate generation unit)로 불리며, 모바일 환경에 적합하도록 개체별 실수 LOD (Level-Of-Detail)를 지원하는 테셀레이션 패턴을 동적으로 생성해 쉐이더에 전달한다. 이때 생성된 출력 패턴은 색인된 삼각형 띠 (indexed triangle strip)로 정의되며 PCGU는 버텍스 캐쉬의 성능을 고려해 이것의 생성순서를 제어함으로써 저품질 입력 데이터에 대한 처리와 다항식 연산의 불필요한 중복처리를 줄인다. TES는 구현 과정에서 쉐이더 기반 테셀레이션 기능의 추가뿐 아니라 쉐이더 내부의 구조도 개선되었다. 먼저 부동소수점 처리기의 성능을 개선한 고속 내적연산 유닛이 사용되었으며, 이와 함께 초월함수의 연산에 필요한 SFU (special function unit)의 구조를 개선한 slim SFU 구조를 제안함으로써 연산처리부의 면적 대비 성능을 69\% 가량 향상시켰다. 또한 에너지 효율의 향상을 위해 일반적으로 사용되는 클락 차단 (clock gating) 기법에 더해 멀티 쓰레드 구조의 특성을 활용하는 메모리 및 범용 레지스터의 사용제한 기법을 추가적으로 제안, 단일 코어에 대한 전력소모를 50\% 가량 감소시켰다. 개선된 쉐이더 하드웨어를 기반으로 테셀레이션 기능을 지원하는 TES는 0.18μm CMOS 공정을 이용해 실제 칩으로 구현 및 검증되었다. 성능 향상을 위해 코어가 두 개 집적된 듀얼코어의 형태로 구현되었으며 사용빈도가 낮은 PCGU 등은 두 개의 코어가 공유하도록 하여 면적 효율을 향상시켰다. 칩 구현 결과에서 테셀레이션을 위해 추가된 PCGU는 전체 TES 면적의 약 7\% 정도만을 차지하며 이를 이용해 메모리 대역폭 사용량을 최대 1/250까지 줄인다. 같은 하드웨어로 처리할 수 있는 버텍스 쉐이딩 성능은 100MHz의 동작속도에서 120Mvertices/s이다. 최종 구현 결과의 전력소모량은 141mW로 전력소모를 줄이는 기법이 사용되지 않은 동일 구조의 TES가 312mW를 소모하는 것에 비해 효율이 54.8\% 향상되었다. 결과적으로 쉐이더 기반의 테셀레이터인 TES는 적은 양의 하드웨어추가만으로 테셀레이션을 지원하여 메모리 대역폭의 사용량을 줄이는 것과 동시에 쉐이더 자체의 면적 및 에너지 효율을 향상시킨 구조로서 모바일 환경의 멀티미디어 SoC에 효과적으로 사용될 수 있는 기하 프로세서이다.

서지기타정보

서지기타정보
청구기호 {DEE 09034
형태사항 ix, 122 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정규식
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 References : p. 118-122
주제 3D graphics;GPU;shader;tessellation;VLSI
3차원 그래픽스;쉐이더;테셀레이션;;
QR CODE qr code