Low power consumption has become one of the most important concerns in VLSI design for portable multimedia application. Moreover, as time-to-market pressures and system complexities increase, these design constraints force us to find the optimal solution on a single chip by defining a generic platform architecture per application-domain and including application-specific modules. This is because the gap between the computational efficiency obtainable from today's general-purpose processor-based systems and the intrinsic computational efficiency of silicon is still about two orders of magnitude (with a tendency to grow), although the progress in silicon technology over the last few decades has lead to enormous advances.
In this thesis, by exploiting top-down design methodology, we present a novel RP-MDSE (Reconfigurable and Programmable Minimum Distance Search Engine) as an application-specific hardware accelerator for portable multimedia search application. It accelerate "nearest neighbor search" to find the vector nearest to an input one among a large number of reference vectors with consuming low-power, after efficiently adapting itself to the different application such as database search, vector quantization, and H.26x motion estimation.
In the first half part, we present our approach of architectural exploration in power-area implememtation space for dramatic power reduction, given the system specifications. For the respective application, we describe better architectures than the conventional general-purpose microprocessor-based systems, together with our observation that for drastic power saving our RP-MDSE have to contain many distributed logic closely connected to large internal memories on a chip.
In the remaining part, we give our VLSI implementation of two prototype RP-MDSE chips by using our novel memory-merged logic and hybrid digital/analog circuits. The chips were fabricated with a standard 0.6 μm singlepoly triple-metal CMOS technology.
The first prototype chip of 4 bit - 8 word MDSE only for scalar database search consumes about 8 mW at 3V/10MHz. Notice that the first chip has about four times higher throughput as well as four times higher energy efficiency, compared with the existing 8 bit micro-controllers.
The second prototype chip of 6 bit - 16 word RP-MDSE for vector quantization and H.26x motion estimation dissipates about 5mW and 19 mW at 3.3V/10MHz, respectively. Based on the experimental results and the specification of the exhaustive full search block-matching with CIF/SIF images at a frame rate of about 30Hz, the estimated chips of 8 bit - 64 word/128 word RP-MDSE dissipate 32~66% less power than the recent motion estimation chip at expense of about 3~5 times larger area. Notice that this area penalty could be considerably reduced with careful layout since our RP-MDSE reduce the number of transistors by 33~48%, compared with the conventional systolic architecture. However, the chips for the exhaustive full search vector quantization will be less useful than the recent vector quantization chip due to the smaller code-book size of 16 dimensional 8 code-vectors.
Since these chips are developed not only for wide use at the portable systems but also for innovate challenge to provide application-specific modules for "System-on-A-Chip", both of the chips and the design techniques will be useful for low power multimedia search application.
최근에는 다양한 휴대용 멀티미디어 시스템들이 출현하여 괄목할만한 성장을 보이고 있다. 한편, 이들 시스템을 구현하기 위해서는 고집적 및 고성능을 만족시켜야 함과 더불어 저전력 소모가 더욱 중요성을 더해 가고 있다. 본 논문에서는 데이터베이스 검색 (Database Search), 벡터 양자화 (Vector Quantization), 그리고, 동영상 움직임 추정 (Motion Estimation)과 같은 멀티미디어 탐색응용에 적합하며, 저전력을 소모하는 하드웨어 가속기의 설계 및 구현에 관한 연구를 다루고 있다. 이 가속장치 "Reconfigurable and Programmable Minimum Distance Search Engine"는 주어진 각 응용분야마다 각각 효율적인 구조로 적응하고, 저장되어 있는 방대하고도 다양한 형태의 참고자료들과 주어진 입력데이터를 비교하여 "가장 인접한 데이터 위치를 찾아 주는 기능 (nearest neighbor search)"을 수행함에 있어서 범용 프로세서를 기반으로 한 기존 시스템에 비해 월등히 적은 전력소모를 보이는 특징을 가지고 있다.
본 논문의 전반부에서는 현격한 전력소모 감소를 도모하기 위하여 상위 설계단계부터 전력소모 및 면적소모를 여러 가지 구조에 대해 예측·비교한 후, 기존 시스템보다 월등한 이득을 갖는 보다 적합한 구조를 선택하는 설계기법(Top-down Design Methodology)을 상세히 설명하고 있다. 그 탐구결과, 현격한 전력감소를 위해서 제안하는 RP-MDSE는 하나의 칩 내에서 대용량의 기억소자(Memory)와 논리소자(Logic)가 분산형태로 밀접하게 연결된 구조로 고집적 되어야 함이 관찰되었다.
본 논문의 중반부에서는 앞서 선택한 구조를 구현하기 위해서 새롭게 제안하는 MML (Memory-Merged Logic)과 DAMC (Digital/Analog-Mixed Circuit)을 이용하여 회로수준에서 최적화한 결과를 보여 준다.
마지막으로, 논문의 후반부에서는 0.6um single-poly triple-metal CMOS 공정을 사용하여 제작한 두 개의 원형 칩들(prototype chip)을 측정·비교한 결과를 정리해서 보여준다. 데이터베이스탐색만을 수행할 수 있는 4 bit - 8 word 크기의 첫번째 칩은 3V/10MHz로 8mW정도 전력 소모를 보이면서 정상 동작하였다. 이것은 기존 범용프로세서인 8 bit microcontroller 들에 비해, 4 배정도 빠르면서도 4 배정도 에너지 효율이 우수함이 확인되었다. 한편, 벡터 양자화 및 동영상 움직임 추정을 수행할 수 있는 6 bit - 16 word 크기의 두번째 RP-MDSE 는 3.3V/10MHz 로 각각 5 mW 와 19 mW 정도의 전력소모를 보이면서 정상 동작하였다. 초당 30 장으로 전송되는 CIF/SIF 영상규격에서 전역 블록탐색 (Full Search Block-Matching)을 수행하는 기존 특수용도 칩들과 비교하기 위해서, 앞서 측정한 자료를 토대로 예측한 8 bit - 64 word/128 word 크기의 RP-MDSE 는, 최근 발표된 칩에 비해 3~5 배정도 더 면적소모를 보이지만 전력만큼은 32~66% 더 적게 소모함이 예측되었다. 여기에서 예측된 RP-MDSE 는 보다 주의 깊게 설계될 경우, 이론적으로 기존 구조들에 비해 33~48% 정도 적은 트랜지스터 갯수를 가지므로, 면적의 부담을 줄일 수도 있으리라 기대된다. 또한, 벡터 양자화를 수행할 경우에는, 최근 발표된 칩에 비해 비슷한 속도와 전력소모를 보임이 예측되지만, 8개의 16차원 코드벡터(Code Vector) 밖에 못 가지므로, 유용성이 다소 감소될 것이라 예측되었다.
이상으로, 본 논문에서 제안하는 칩들과 설계기술은 휴대용 시스템을 위해 범용적으로 사용될 수 있을 뿐만 아니라, 최근 하나의 칩상에서 전체 시스템을 구현하고자 하는 "System-on-A-Chip"을 위한 특수목적의 하드웨어를 제공하는 혁신적인 도전이라 말할 수 있다. 그러므로, 본 연구의 결과들은 저전력 소모가 요구되는 여러 가지 멀티미디어 탐색 응용분야에 매우 유용하게 적용되리라 기대된다.