서지주요정보
(A) multilevel parallel texture cache memory using EML for 3D graphics = EML 을 이용한 3 차원 그래픽스용 다층 병렬 텍스쳐 캐쉬메모리
서명 / 저자 (A) multilevel parallel texture cache memory using EML for 3D graphics = EML 을 이용한 3 차원 그래픽스용 다층 병렬 텍스쳐 캐쉬메모리 / Se-Jeong Park.
발행사항 [대전 : 한국과학기술원, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8013422

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 02021

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As PC graphics applications such as 3D game and 3D advertisement require more realism, various advanced graphics algorithms are aggressively applied to PC graphics applications. Texture mapping is one of the most effective graphics operations to enhance the realism of 3D graphics scenes. However, it requires large bandwidth on the system bus, such as the AGP or PCI bus, for loading texture images from the system memory to a graphics card. Furthermore, as the number of graphics pipelines in the PC graphics card increases for high-speed parallel rendering, texture data distribution among the parallel graphics pipelines becomes an important issue. In this research, a new texture cache memory architecture, named multilevel parallel texture cache (MPTC), for both reducing the texture loading bandwidth and supporting parallel graphics pipelines more efficiently is proposed. The performance of the MPTC is analyzed on 3DOperaMC graphics simulation environment developed for this research. A prototype chip has been designed and implemented by using 0.16 um DRAM-based SOC technology. During the chip implementation, various circuit-level techniques to enhance the performance of the cache memory have been proposed and employed. For the chip testing and architecture validation, a graphics hardware system, named 3DTango, has also been developed. In this full research flow, the proposed cache architecture has been validated that it is effective in both reducing the required texture loading bandwidth on the system bus and supporting parallel graphics pipelines. The proposed cache architecture is composed of a large DRAM L2 cache memory, parallel SRAM L1 cache memories and integrated texture filtering modules based on trilinear interpolation. The large DRAM L2 cache memory (8 Mbytes) reduces the required texture loading bandwidth on the system bus by exploiting the inter-frame texture data access coherency between consecutive graphics frames. 3DOperaMC simulation results show that 20 times smaller texture loading bandwidth can be achieved by the DRAM L2 cache memory for 1024 x 768 screen resolution. The parallel SRAM L1 cache memories support the parallel graphics pipelines with one-to-one relationship. This enables each graphics pipeline to run at its maximum clock speed without cache access conflict, which occurs when different graphics pipelines are trying to access the same L1 cache. In this cache memory architecture, the bandwidth of the internal bus (IBUS) between the L2 cache and the parallel L1 caches is crucial to smoothly perform the parallel L1 cache replacement. The IBUS bandwidth has been maximized up to 75 GB/s by the pro-posed hidden double data transfer (HDDT) scheme. This large IBUS bandwidth enables to increase the number of parallel L1 caches up to 8 without parallel speed-up saturation on the IBUS. The cache memory implementation also employs parallel data paths in the access of SRAM L1 cache data. Eight texel values are simultaneously accessed and transferred to each of the filtering modules for single-cycle trilinear interpolation. For this parallel access, a scalable parallel column decoder has been proposed and employed. It can generate four column selection signals simultaneously to select four neighboring texels in an even or odd LOD texture image. Furthermore, it has scalability in its 2D decoding range, resulting optimal caching performance for various graphics applications. The performance of the proposed cache architecture has been validated on the 3DTango graphics hardware system. It shows that the proposed cache memory architecture achieves 9.6 Gtexels/sec and 7 Gtexels/sec in its maximum and sustained texel rates, respectively, with 150 MHz clock rate. In the case of trilinear interpolated texel rate, it achieves 1.2 Gtexels/sec and 875 Mtexels/sec in its maximum and sustained rates, respectively. The high texel rate and the reduced texture loading bandwidth by the proposed cache memory enables to enhance the realism of 3D graphics scenes with interactive frame rate, enabling virtual reality systems in PCs in the near future.

본 연구는 PC 그래픽 시스템에서 보다 현실감 있는 그래픽 영상을 얻기 위한 새로운 구조의 텍스쳐 캐쉬메모리를 제안하고, 이를 0.16 μm DRAM-based SOC 공정을 이용해서 구현하였다. 최근 PC 그래픽 응용프로그램들은 보다 높은 현실감을 얻기 위해서 다양한 그래픽 알고리듬들을 적극적으로 사용하고 있으며, 이 중 텍스쳐 맵핑이 효과적인 방법 중의 하나로서 다양하게 응용되어지고 있다. 텍스쳐 맵핑은 3 차원 물체의 표면에 2 차원의 텍스쳐 이미지를 입혀 줌으로써, 3 차원 물체 표면의 질감이나 무늬를 효과적으로 표현하는 기법이다. 그러나, 텍스쳐 맵핑은 랜더링 중에 2 차원 텍스쳐 이미지를 PC 시스템 메모리로부터 AGP 나 PCI 버스를 통해 지속적으로 PC 그래픽 카드로 가져와야 하기 때문에, AGP 나 PCI 버스 위로의 넓은 데이터 대역폭을 요구하는 문제점을 가지고 있다. 더구나, 최근 PC 그래픽 카드들이 고속 병렬 랜더링을 위해 그래픽 파이프라인의 개수를 지속적으로 늘려 감에 따라 다중의 그래픽 파이프라인들이 텍스쳐 캐쉬를 접근하는데 있어서 발생하는 충돌 문제가 심각하게 대두되고 있다. 본 연구에서 제안하는 다층 병렬 텍스쳐 캐쉬 메모리는 고성능 텍스쳐 맵핑을 위해 해결되어야 할 위의 두 가지 문제점 - AGP 나 PCI 버스 위로 요구되는 넓은 대역폭과 병렬 그래픽 파이프라인들의 텍스쳐 캐쉬 접근시의 충돌문제 - 을 해결하기 위해서 하나의 큰 8 MByte DRAM L2 캐쉬와 병렬 SRAM L1 캐쉬들 및 Triliner Texture Filter 모듈들을 하나의 칩으로 통합하였다. 큰 DRAM L2 캐쉬 메모리는 그래픽 프레임 간의 texture access coherency 를 이용해서 AGP 나 PCI 버스 위로 요구되는 대역폭을 평균 1/20 로 줄여주고, 병렬 SRAM L1 캐쉬들은 각기 독립적으로 병렬 그래픽 파이프라인들을 지원하게 함으로써 병렬 그래픽 파이프라인들 간의 캐쉬메모리 충돌 없이 고속 동작이 가능하게 하였다. 제안된 캐쉬 메모리 구조가 현실적으로 유용하기 위해서는 DRAM L2 캐쉬와 병렬 SRAM L1 캐쉬들을 이어주는 칩 내부 버스의 넓은 대역폭이 필수적이다. 이를 위해 본 연구에서는 Hidden Double Data Transfer 기법을 새로이 제안하고 채용함으로써 내부 버스 대역폭을 75 GB/sec 까지 끌어 올렸고, 이는 하나의 DRAM L2 캐쉬에 붙을 수 있는 병렬 SRAM L1 캐쉬들의 수를 최대 8 개 까지 가능하게 하였다. 또한, 각 SRAM L1 캐쉬의 출력 단을 병렬화 시키고 Texture Filter 모듈을 밀접히 붙여 줌으로써, 매 클럭 사이클 마다 필터링 되어진 텍스쳐 값을 그래픽 파이프라인이 얻을 수 있게 함으로써, 그래픽 파이프라인의 연산부하를 줄여 줄 수 있게 하였다. 제안되어진 캐쉬 구조의 시스템 레벨 성능 분석을 위해 3DOperaMC 라는 병렬 캐쉬 시뮬레이터를 만들고 시뮬레이션을 수행하였다. 이로부터 캐쉬 메모리 구현을 위한 최적을 캐쉬 파라미터들을 추출하였다. 최적의 구조를 가진 다층 병렬 텍스쳐 캐쉬메모리는 0.16 μm DRAM-based SOC 공정기술을 이용해서 구현되었으며, 저속의 DRAM 주변 회로용 트랜지스터를 이용한 L1 캐쉬 및 Texture Filter 모듈의 속도 저하 문제를 극복하기 위해, 병렬화 기법을 적용시킴으로써 값비싼 Merged DRAM Logic (MDL) 공정을 사용한 설계보다 성능 면에서 뒤지지않게 하고 가격대비성능비가 우수한 설계가 되도록 하였다. 구현된 다층 병렬 텍스쳐 캐쉬 메모리는 3DTango 라는 본 연구를 위해 개발되어진 그래픽 하드웨어 위에 탑제되어 칩 성능이 분석되었으며, 평균 825 Mtexel/sec 의 trilinear interpolated texel rate 을 보여주고 있다. 본 연구에서 제안된 텍스쳐 캐쉬 메모리는 PC 그래픽 시스템 상에서 지속적으로 증가하는 텍스쳐 데이터를 위한 버스 대역폭을 크게 줄여주고, 병렬 그래픽 파이프라인들을 보다 효율적으로 지원함으로써 PC 그래픽 시스템의 성능을 보다 향상시킬 수 있게 하였으며, PC 그래픽 시스템 상에서의 가상현실 시스템 구현을 위한 연구에 적용 될 수 있을 것이다.

서지기타정보

서지기타정보
청구기호 {DEE 02021
형태사항 iv, 112 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박세정
지도교수의 영문표기 : Hoi-Jun Yoo
지도교수의 한글표기 : 유회준
수록잡지명 : "Hidden double data transfer scheme for MDL design". IEE electronics letters, v.37 no.11, pp.676-677 (2001)
수록잡지명 : "A reconfigurable multilevel parallel graphics cache memory with75 GB/s parallel cache replacement bandwidth". IEEE Journal of solid-state circuits, v.37 n.5, in press (2002)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 103-105
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서