서지주요정보
(A) multithread expanded VLIW vertex processor with vertex caches = 정점 캐쉬와 다중 쓰레드 확장 VLIW 구조를 가지는 정점 프로세서
서명 / 저자 (A) multithread expanded VLIW vertex processor with vertex caches = 정점 캐쉬와 다중 쓰레드 확장 VLIW 구조를 가지는 정점 프로세서 / Chang-Hyo Yu.
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019463

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 07055

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Early implementations of the embedded mobile 3-D graphics processor mainly focused on core area and power dissipation to provide graphics functions into a SoC platform within a limited area and a power budget. After that, the demand on rapidly increasing multimedia applications, such as mobile cell-phone, PDA, and so on, initiates to develop the processing performance of the graphics processor while maintaining its power dissipation suitable for mobile systems. Recently, embedded 3-D graphics processors continuously increase their functionality as well as the processing performance and reduce the power dissipation to achieve more realism on the power or energy-limited mobile systems. In this thesis, an energy efficient floating-point vertex processor is proposed making use of not only low-power techniques but also graphics-specific characteristics to acquire higher performance as well as better power efficiency for the mobile graphics environment. It supports the up-to-dated OpenGL ES 2.0 and a high-end standard, Vertex Shader 3.0, which include the advanced functions, such as flow controls and vertex texturing. The datapath is an efficient combination of functional units for the 3-D graphics vertex processor while providing sufficient operands with limited read and write-ports to reduce the power dissipation and the excessive number of registers ports in the VLIW datapath. In the proposed datapath, a power management unit is implemented to control the state of the whole processor parts with the operand isolation and clock gating methods as well as a processor’s state-related sleep mode in on-chip memories. To reduce the bandwidth between hosts and graphics processors and to improve the vertex processing performance, vertex caches are also implemented with an optimized configuration. To give more programmability and efficiency, a vertex texture fetcher with four sampler units is implemented into the datapath, which is the first implementation on the embedded graphics processor. Thanks to the series of the proposed methods for the specific architecture, the proposed processor achieves a 186Mvertices/s of vertex processing performance which is 5.2 and 8.0 times of the previous result in performance and power efficiency, respectively. The processor is fabricated in a $0.18-\mu m$ 1P4M standard CMOS logic process, and its core consumes 160.7mW of power when it runs at 110 MHz.

모바일을 비롯한 초기 임베디드 환경을 위한 3D 그래픽스 프로세서들은 주로 작은 코어 영역과 저전력 소모를 위한 연구로 그 초점이 맞추어져, 한정된 코어 영역과 전력 공급이 가능한 SOC 환경에 적합한 형태로 연구 및 개발되어 왔다. 이 후, 급속도로 발전하는 멀티미디어 어플리케이션들로 인하여 3D 그래픽스에 대한 요구 역시 크게 증가하여, 휴대폰, PDA등을 비롯하여 Sony의 PSP와 같은 모바일 게임 콘솔등의 여러 매체를 통하여 코어 영역이나 저전력의 기본적인 특성과 더불어 이와 같이 급속히 증가한 3D 기능의 구현을 위한 성능과 기능성적인 측면에서의 향상이 크게 요구 되고 있다. 최근의 연구 결과들은 이와 같은 요구를 반영하기 위해 전력과 에너지가 제한된 환경에서도 성능 및 기능성을 강화하기 위한 방법들을 제시하고 있다. 본 논문에서는 기존의 연구 결과들이 일반적인 저전력 방법들, 즉 clock gating, operand isolation, 및 dynamic voltage scaling등, 을 그래픽스 환경에 적용하여 저전력을 얻고, 부동소수점 연산의 부담을 줄이기 위하여 이에 대한 대체 연산 유닛으로서, 고정소수점 연산이나 로그 영역을 사용한 부정소수점 연산 등의 방법들을 사용함으로써 저전력과 고성능을 얻는 방법에 비해, 그래픽스 환경의 특성을 먼저 파악하고, 이를 이용하여 저전력 및 고성능 즉, 에너지 및 전력에서 효율적인 그래픽스 프로세서를 제안하고, 추가적인 저전력 효과를 얻기 위해 회로 레벨의 저전력 방법인, clock gating, operand isolation, 및 sleep control을 사용하며, 정점 프로세서의 앞뒤에 정점 캐쉬를 설계 및 구현하였다. 정점 캐쉬는 정점 프로세서와 호스트와의 대역폭 감소 효과를 얻도록 하며, 또한 반복적인 정점 연산을 제거하여 추가적인 부담 없이 성능 향상을 꾀할 수 있도록 한다. 제안하는 정점 프로세서 구조는 다중 쓰레드 확장 VLIW datapath, 저전력 방법, 및 Pre/Post 정점 캐쉬의 세 가지 주요 부분으로 구성된다. 다중 쓰레딩 방법은 부동 소수점 연산에 따른 hazard를 근본적으로 피할 수 있도록 하며, 이는 정점 연산의 정점간 독립성을 활용한 방법이다. 정점 연산을 분석해 보면, 특정 유닛을 사용하는 인스트럭션들이 병목 현상을 일으켜 전체적으로 성능 향상의 제약을 가져오게 된다. 따라서 이를 해결하기 위하여 확장 VLIW 구조를 가지는 datapath를 제안하였다. 이러한 확장 VLIW 방법은 정점 프로세서 연산의 정점내 독립성에 비롯해 제안된 구조이다. 그러나, VLIW와 같은 병렬 처리 구조에서는 연산자 공급과 연산 결과의 동시 저장에 따른 부담이 존재한다. 또한 본 논문에서 제안하는 확장 VLIW의 경우는 보다 많은 수의 연산자 공급과 결과 저장을 위한 읽기/쓰기 포트가 필요하게 된다. 그러나, 이와 같이 필요한 수의 포트를 그대로 증가시키게 된다면, 전체적인 에너지 측면에서의 효과가 희석 될 수 밖에 없으나, 이를 해결하기 위하여 정점 연산의 특성을 활용한, 연산자 공유 방법과 연산 결과 재분배 방법을 제안하여 4개의 읽기 포트와 2개의 쓰기 포트만을 가지고, 최대 11개의 연산자를 공급 가능하도록 하였으며, 최대 4개의 연산 결과를 저장 할 수 있도록 하여, 연산자 공급 및 저장에 따른 부담을 최소화하는 확장 VLIW 구조를 제안하였다. 표준 규정으로서 3개의 읽기 포트와 1개의 쓰기 포트가 사용되는데 반하여, 읽기/쓰기 포트가 1개식 추가되었지만, 이는 입출력 레지스터의 조합을 새로 제안하여 표준 규정과 비슷하거나 줄어든 하드웨어 크기와 전력만으로 구현하는 방법으로 설계 하였다. 확장 VLIW 구조로 인하여, 유휴 상태에 놓인 기능 블록들의 전력 소모를 줄이기 위하여 clock gating과 operand isolation 방법을 적용하고, 칩의 49.1%를 차지하는 온칩메모리의 전력 소모를 줄이기 위하여 최대한 절전모드 상태로 동작하도록 프로세서의 현재 상태와 인스트럭션을 비롯한 정보에 의한 컨트롤러를 통하여 저전력 방법을 구현하여 전력 소모를 줄이도록 하였다. 정점 프로세서 내부 구조와 별도로, 프로세서와 호스트 간의 대역폭을 줄이면서 이에 따른 추가적인 전력 감소와, 정점 프로세서의 불필요한 연산을 줄이도록 하여, 전력 감소 및 성능 향상을 이루기 위한 정점 캐쉬를 통하여, 평균적으로 32.8%의 대역폭 감소 효과를 얻을 수 있었고, 1.69배의 성능 향상을 추가적인 부담 없이 얻을 수 있었다. 설계된 정점 프로세서를 바탕으로 하여 여러 구조적인 방법들의 조합과의 비교 결과, 기존의 임베디드 환경에서 사용되어 왔던 단일 쓰레드 SIMD 구조에 비하여, 다중 쓰레드가 적용되는 경우는 17.1%, 추가적으로 VLIW 구조가 적용되는 경우, 19.1%의 평균적인 에너지 감소 효과를 얻을 수 있었다. 특히, VLIW 구조가 추가되는 경우는 단 2.5%의 성능 향상만을 얻을 수 있었으나, 이는 정점 프로그램의 특성에 따른 병목현상과 연산자 공급 및 결과 저장에 따른 추가적인 부담이 전체적인 에너지 측면에서의 이득을 가져오지 못한 이유로 나타났다. 제안하는 방법은 이러한 특성을 파악하여 연산자 공급과 결과 저장의 부담을 기존 SIMD 방법과 비슷하게 가져가면서 더욱 많은 포트를 가지는 효과를 갖도록 하며, 확장 VLIW 구조를 통하여 병목 현상을 없앰으로써 종합적으로 40.5%의 에너지 감소 효과를 얻을 수 있었다. 또한 정점 캐쉬를 통하여 Datapath 의 에너지 감소 효과에 추가하여 64.8%의 평균적인 에너지 감소 효과를 얻을 수 있었다. 결과적으로, 제안하는 정점 프로세서는 기존의 단일 쓰레드 SIMD 구조에 비해 5.3 배의 성능 향상을 가지며, 2.8배의 에너지 효율을 높일 수 있었다. 이는 기존의 부동 소수점 연산 유닛을 가지는 연구 결과와 비교하여 성능과 에너지 효율성 측면에서 각각 5.2배와 8.0배의 향상을 얻을 수 있었다. 본 연구 결과는 두 개의 칩으로 구현되었다. 첫 번째 칩의 경우, 제안하는 정점 프로세서 구조와 최소화된 정점 캐쉬를 가지도록 하여, 1.5M 트랜지스터와 22kB의 온칩메모리로 $4.0×4.0mm^2$ 의 코어 사이즈를 가지고 있으며, 1.8V 1P4M $0.18\mu m$ 공정에서 제작되었다. 이 칩은 100Mhz의 동작 주파수에서 최대 120Mvertices/s의 기하연산 성능을 가진다. 두 번째 칩은 첫번째 칩의 구조에 비해 보다 최적화된 결과로서, 추가적으로 저전력 방법들이 Datapath에 적용되었으며, 최적화된 정점 캐쉬, 정점 텍스쳐 유닛등의 전력적으로 보다 효율적인 방법들이 구현되어, 2.0M 트랜지스터와 25kB 온칩 메모리로 첫 번째 칩보다 그 규모가 커지게 되어, $4.0×4.8mm^2$ 의 코어 크기를 가지며, 110Mhz의 동작 주파수에서 최대 186Mvertice/s 의 성능을 나타낸다.

서지기타정보

서지기타정보
청구기호 {DEE 07055
형태사항 viii, 97 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 유창효
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
수록잡지정보 : "An Engery-Efficient Mobile Vertex Processor with Multithread Expanded VLIW Architecture and Vertex Caches". IEEE Journal of Solid-State Circuits,
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 References: p. 94-97
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서