서지주요정보
Orthogonal tRAM and bank-driven embedded memory architecture for two dimensional signal processing = 이차원 신호처리를 위한 직교형 티램과 향상된 뱅크구조를 가지는 임베디드 메모리에 대한 연구
서명 / 저자 Orthogonal tRAM and bank-driven embedded memory architecture for two dimensional signal processing = 이차원 신호처리를 위한 직교형 티램과 향상된 뱅크구조를 가지는 임베디드 메모리에 대한 연구 / Kyung-Saeng Kim.
발행사항 [대전 : 한국과학기술원, 2001].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012594

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 01064

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The embedded memories in the embedded system are prevalent with advances in the VLSI technology and the associated design paradigms have shifted. In this thesis, embedded memory architectures for two-dimensional signal processing have been proposed for efficient data flow in the I/O bounded problems and optimized under the off-/on-chip memory bandwidth and one-chip criterion. The figure of merits will be addressed through the intrinsic embedded memory architecture and the usage in the application such as Motion Estimation (ME). Unlike the off-chip memory increasing the peak performance, embedded memories can be exploited to suit specific applications for the two-dimensional signal processing where overhead clocks are induced by the architectural hazards in mismatch between storage components and Processing Elements (PEs). By applying an architecture driven voltage scale, we analyze the effects of the overhead clocks in power consumptions. For reducing the power consumed by these overhead clocks and maximizing the useful data transfer rate, we will propose two approaches using the asymmetric/complementary embedded memory banks and the orthogonal transpose-RAM cell array. The prototype processor with asymmetric, complementary embedded memory banks has been fabricated with 0.6um standard CMOS technology with 1-poly and 3-metal, where several techniques are employed to reduce the silicon area occupied by the memory block and room for the metal tracks used in PEs. The results show that power saving is improved by using complementary access types of memory banks and amounts to 27.3% compared to an identical design without the proposed enhancements when the Full-search Block Matching Algorithm (FBMA) is applied for the CCIR-601 format. The proposed asymmetric, complementary embedded memory banks make an ME processor efficient and optimal for interest wide range in spite of the area-overhead. The implemented chip operates at 2.5mW/MHz and 3.3V supply voltage. According to the parameters such as intrinsic area and power consumption, improvement in the cost is outstanding although the block size and search area are fixed in our ME chip. Since hybrid algorithms are efficiently achieved in it without degradation of the high PE utilization for the FBMA ME, we effectively control image qualities with processing power. Therefore, the proposed architectural enhancement of the asymmetric, complementary embedded memory banks enables the ME chip to achieve not only almost 100% PE utilization for FBMA ME but also any random-search block matching algorithms with high switching and area efficiency. Another proposed embedded memory architecture is an orthogonal transpose-RAM (tRAM), which aims at efficient transposing that frequently happens in 2D data processing. It has been developed with careful consideration in the bit slice sub-banks, layout complexity, and transposing scheme. Assuming array processors that can support parallelism in two-dimensional signal processing, the orthogonal tRAM supplies a random vector with burst length equal to the number of the input into the array processor. According to the transposing scheme, orthogonal tRAM can randomly transpose a row vector into a column vector with internal and external operation, and vice versa. The transposing scheme is realized with various Bit-line To Bit-line Contact (BTBC) schemes such as diagonal and alternate BTBC. For implementing the orthogonal tRAM with area and power efficiency, (i, 2i) transposing scheme by the alternate BTBC is especially developed in 2T-1C DRAM technology. With (i, 2i) transposing scheme, the orthogonal tRAM cell array architecture of 2T-1C DRAM supports folded-bit line sensing scheme only consuming cell size of $16_Fpoly×F_{m1}$. In addition, asymmetric bit-line scheme induced by the (i, 2i) bit-line transposing scheme results in low power operation and faster response time of sense amplifier compared to the symmetric bit-line scheme. For I/O bounded problem such as NxN matrix product, the orthogonal tRAM reduces the clock necessary of $O(N^3)$ into $O(N^2)$ compared to the normal on-chip memory and consumes 22% of clocks for N=8. From the layout and simulation results, therefore, it is found to be promising cell array architecture for orthogonal memory. In the appendix, we will also describe another application such as digital Finite Impulse Response (FIR) filtering, which will be developed through the distributed multiport memory. After considering one-chip solution issues such as occupied area and power consumption, we have driven an optimum condition for coded coefficient and data block. The optimum condition shows that 35% savings in power consumption and 44% improvements in occupied area compared to the typical radix-4 modified Booth algorithm. According to the optimum condition and separated shifting-accessing clock scheme, we have implemented a 32-tap FIR filter in 0.6um CMOS technology with three levels of metal. The chip that occupies 2.3×2.5 ㎟ of silicon area, has an operating frequency of 20MHz and consumes 75mW at Vdd=3.3V showing that it is the most optimized through the modified access pattern and memories for coefficients and input data in terms of the one-chip criterion.

최근, VLSI 기술의 발전과 함께 내장형 시스템을 위한 (내장용)임베디드 메모리가 널리 사용되고 있으며 중요성 또한 증대되고 있다. 본 논문은 이차원 신호를 처리할 때 나타나는 비효율적인 데이터 흐름을 효과적으로 제어하는 임베디드 메모리 구조들을 제안한다. 또한 제안하는 구조의 장점들을 움직임 추정(Motion Estimation)이라는 사용환경과 동작을 통해서 기술할 뿐만 아니라, 메모리 셀 구조의 본질적인 특성들을 통해서 강조한다. 순간적인 최대 성능의 향상과 다양한 적용을 요구하는 외장용 메모리와는 달리, 우리는 임베디드 메모리 사용시 메모리 구조를 변형하여, 저장용 소자(Storage Element)와 신호 처리용 소자 (Processing Element)사이의 구조 불일치(Architecture Mismatch)에 의해서 발생하는 여분의 시간을 제거 할 수 있다. 본 논문에서는 Architecture Driven Voltage Scale을 적용하여, 발생된 여분의 시간이 전력소모 (Power Consumption)에 미치는 효과를 분석한 다음, 이러한 여분의 시간을 줄여 가용 데이터 전송속도를 최대화 시키는 비대칭적이며 상보적인 임베디드 메모리 뱅크 구조와 Orthogonal Transpose-RAM을 다룬다. 비대칭적이고 상보적인 임베디드 메모리 뱅크 구조를 가지며 움직임 추정이 가능한 시작용(Prototype) 칩을 0.6um CMOS Technology (1-Poly, 3-Metal)로 구현하였다. 구현된 실리콘 칩은 3.3V 전압에서 2.5mW/MHz의 동작 특성을 보인다. 구현된 결과에 의하면, 본 논문에서 제안하는 구조를 채용할 경우, 구조개선이 없는 경우에 비해서 전력소모가 감소함을 알 수 있다. 또한 그 이득이 CCIR-601 형태의 움직임 추정시 27.4%임을 알 수 있다. 소모된 면적과 전력특성을 나타내는 원 칩 척도(One-Chip Criterion)를 고려할 경우, 제안된 메모리 뱅크 구조는 대부분의 영역에서 움직임 추정용 프로세서를 보다 효율적이고 최적화 시키고 있음을 알 수 있다. 즉, 본 논문에서 제안된, 비대칭적이며 상보적인 임베디드 메모리 뱅크 구조가, 비록 블록 크기와 탐색 거리를 고정시키지만, 전역 블록 탐색 (Full-search Block Matching)시 높은 PE 효율을 유지시키는 것은 물론, 높은 전환 효율로 무작위의 블록 탐색을 가능하게 하는 등, 여타의 다른 칩에 비해서 월등히 뛰어난 특성을 칩에 부여함을 알 수 있다. 또 다른 제안인 Orthogonal Transpose-RAM (tRAM)은 이차원 데이터 처리 시 빈번하게 나타나는 문제 중 하나인Transposing 을 효율적으로 처리하고 범용적으로 사용될 수 있도록, Bit단위의 서브 뱅크, Cell 배치복잡도와 Transposing 구성 등을 고려하면서 발전되었다. Orthogonal tRAM은 이차원 신호를 처리할 때 나타나는 병렬성을 효과적으로 지원하는 어레이 프로세서(Array Processor)와 함께 사용될 때 그 효과가 뛰어나며, Transposing 구성에 따라 어레이 프로세서 개수와 같은 길이의 열 벡터와 행 벡터를 무작위로 읽는다. 이러한 무작위 벡터 읽기는 Bit-line To Bit-line Contact (BTBC)을 통해서 구현된다. 본 논문에서는 효율적인 면적과 전력소모 특성을 가지는 Orthogonal tRAM을 구현하기 위해서, 특히, (i, 2i) Transposing 구조를 2T-1C DRAM 공정을 바탕으로 Alternate BTBC를 사용해서 제안하였다. 2T-1C로 이루어진 (i, 2i) Orthogonal tRAM 셀 어레이 구조는 $16F_poly×F_{m1}$ 면적을 소모하면서 Folded-bit-line Sensing을 지원하는 것은 물론, 결과적으로 나타난 비대칭적인 Bit-line 구조로 인해서 저전력 소모와 Sense Amplifier의 빠른 응답 특성을 보인다. 이러한 특성을 가지는 Orthogonal tRAM에 NxN 행렬 곱셈을 적용 시킨 결과는, 일반적인 임베디드 메모리를 사용하는 경우에 비해서 필요한 클럭 복잡도를 $O(N^2)$으로 감소시키며, 특별히 N이 8일 경우, 22%의 클럭만이 소모됨을 보인다. 따라서 이러한 결과들로부터 Orthogonal tRAM이 이차원 신호처리에 유용하게 사용될 수 있음을 알 수 있다. 부록에서는 분산형 메모리구조를 이용하여 Finite Impulse Response (FIR) Filter의 구현에 관해서 기술하였다. 우선, 원 칩 척도를 고려하여 계수와 입력용 메모리블록을 위한 최적의 조건을 도출하였다. 전형적인 Booth Algorithm (Radix-4 Modified Booth Algorithm)에 비해서 전력소모에서 35%, 차지하는 면적에서 44% 이득을 보이는 최적의 조건에 따라, 32 tap으로 이루어진 FIR Filter를 0.6㎛ CMOS 공정(3-Metal, 1-Poly)으로 구현하였다. 구현된 칩은 2.3×2.5㎟ 면적을 차지하며, 20MHz로 동작하면서 3.3V에서 75mW를 소모한다. 다른 칩들과 원 칩 척도를 적용 하면서 비교할 경우, 가장 최적화 되었음을 것을 알 수 있다. 이상으로, 이차원 신호 처리 시 최적화된 메모리 구조가 시스템의 성능은 물론 면적 소모를 개선시킬 수 있는 중요한 변수가 됨을 알 수 있으며, 본 논문에서 제안하고 있는 방법들이 이러한 목적에 매우 유용하게 적용될 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DEE 01064
형태사항 viii, 115 p : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : Low-power, area-efficient FIR filter implementation with optimized 3-port distributed cells
저자명의 한글표기 : 김경생
지도교수의 영문표기 : Kwy-Ro Lee
지도교수의 한글표기 : 이귀로
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 106-115
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서