서지주요정보
Vision processor design based on unifed FAST-BRIEF hardware and variation aware power estimation technique = 통합된 FAST-BRIEF 하드웨어와 변이 고려 전력 측정 기법을 기반으로 한 비전 프로세서 디자인
서명 / 저자 Vision processor design based on unifed FAST-BRIEF hardware and variation aware power estimation technique = 통합된 FAST-BRIEF 하드웨어와 변이 고려 전력 측정 기법을 기반으로 한 비전 프로세서 디자인 / Jun-Seok Park.
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030304

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 15082

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As the demand for high-quality vision processing on mobile devices such as smart phones, tablet PCs, and ADAS (advanced driving assistance system) increases, hardware supports for various vision algorithms become essential in mobile environments. To support those vision algorithms with high-quality and high-resolution trends in embedded systems, the requirement for hardware resources also increases super-linearly with respect to the amount of data to be processed. Therefore, (1) high processing performance is required as well as (2) low power consumption and (3) small implementation area. Furthermore, (4) sufficient external memory bandwidth also should be guaranteed to support maximum target frame rate. In this dissertation, the energy efficient vision processor is presented for real-time low-level vision processing on mobile devices. It includes a reconfigurable dedicated accelerator with a unified memory scheme, a specialized cache memory for reducing external memory overhead, and parallel processing cores for general purpose vision processing on a mobile platform. The vision accelerators based on the optimized memory architecture shows better system efficiency in terms of power, performance, and area than parallel processing cores when they execute low-level vision algorithm. Meanwhile, a dynamic power management scheme based on a real-time variation analysis method is proposed because the parallel processing cores consume than 50% of total power in general. Interest point extraction and matching algorithms are essential in most vision tasks such as object tracking, localization, SLAM (simultaneous localization and mapping), image matching, recognition and image stitching. However, it is not easy to detect features from high resolution video streams in real-time even with high computing power. Many hardware architectures based on parallel processing cores have been proposed to resolve this problem, but the state-of-the-art implementations achieve only 30fps with VGA images ($640\times 480$) and suffer from massive area/power overhead. A unified interest point detection and matching accelerator is presented for embedded vision applications. It performs image-based recognition applications in real-time both in mobile and vehicle. The proposed system is implemented as a small IP, and it has 8 times higher throughput than state-of-the-art object recognition processors which are implemented based on heterogeneous many-core system. The accelerator has 3 key features: 1) Joint algorithm-architecture optimizations for exploiting bit-level parallelism, 2) A low-power unified hardware platform for interest point detection and matching, and 3) scalable hardware architecture. It consists of 78.3k logic gates and 128kB SRAM, integrated in a test chip for verification. Both interest point detection and matching operations are required for the general recognition process. These two operations are functionally independent, so different hardware should be implemented for the complete recognition process. This causes two critical problems; 1) area-efficiency loss and 2) unbalanced workload. In order to resolve these problems, unified hardware platform is proposed to share the same hardware between interest point detection and matching as a result of joint algorithm-architecture co-optimization. Since the proposed hardware is a multi-functional hardware accelerators exploiting bit-level parallelism, it is a good solution to mitigate the area overhead in a mobile environment. Furthermore, it resolves performance degradation caused by load unbalancing. The proposed hardware achieves $9.5 \times$ performance improvement only with 30% of logic gates including SRAM compared to the state-of-the-art object recognition processors. The unified interest point detection and matching hardware with optimized memory architecture is used for real-time high-resolution stereo matching system. In order to accelerate stereo matching algorithm, the unified data-path in the hardware performs not only interest point detection and matching algorithm such as FAST and BRIEF but also Census transform, which is widely used in stereo matching, in real-time. To achieve maximum performance, two special memory architectures are proposed; reconfigurable image memory (RIM) and point cloud index memory (PCIM). RIM is a unified memory architecture to load pixel value from a raw image patch. Since FAST, BRIEF and Census transform have different and complex memory access patterns, miss-rate of memory access might be increased. To optimize the memory operation, RIM can change its memory configuration according to the algorithm. Since joint algorithm-architecture co-optimization mitigates performance degradation caused by bank conflicts, the unified reconfigurable memory scheme has a lot of flexibility at a minimal hardware overhead. PCIM is a dedicated memory system utilizing the geometric information of the cameras in order to reduce the off-chip memory bandwidth. Based on the geometric information, PCIM removes most of the redundant candidates. Since PCIM minimizes the off-chip memory bandwidth using a dedicated cache, the performance degradation is negligible compared to the exact nearest neighbor method. The area-based stereo matching is accelerated based on GPGPU architecture as the search range is adaptively reduced according to the disparity of the matched correspondences. In order to fully support massive computational requirement of a vision algorithm, GPGPU (General purpose GPU)-based multi-core parallel processing architecture is essential. Since the parallel processing cores consume than 50% of total power in general, many-core power management technique such as dynamic voltage frequency scaling (DVFS) is required for energy-efficient vision processing. Since advanced technology makes it possible to integrate more transistors on a chip, circuits are suffering from large process, voltage, and temperature (PVT) variations impacting dynamic and leakage power consumption with deep submicron technologies (20nm and further). However, since the state-of-the-art dynamic power management schemes did not consider those power variations, it is not easy to estimate power consumption accurately according to configurations of power management. In order to understand the power variation of integrated parallel cores, machine learning based variation analysis technique is proposed. It estimates the power characteristics of each core in real-time from total power and activation events of on-chip cores. Many-core power management technique is also presented to improve energy efficiency according to target applications. The proposed method finds the optimal V-F configuration of all cores in terms of energy within a few micro-seconds. The overall hardware consists of 1.20M logic gates and consumes maximum 185mW. Interest point detection and matching accelerator achieves 106 frames per second (fps) in 1080p full HD resolution at 200MHz operating frequency with 3500 descriptors per image. The proposed many-core power management technique is verified in 65nm low-power CMOS process, and also evaluated in more advanced CMOS technology.

컴퓨터 비전 애플리케이션이 스마트폰에서부터 자동차용 능동 안전 시스템에 이르기까지 넓은 분야에서 핵심적인 기술로 각광받음에 따라 모바일용 비전 프로세서의 설계의 중요성이 부각되고 있다. 비전 프로세서는 높은 해상도의 카메라에서 실시간으로 들어오는 정보를 빠르고 정확하게 처리해야 하므로 병렬 처리를 극대화할 수 있는 멀티 코어 하드웨어 기반의 설계를 바탕으로 한다. 하지만 비전 애플리케이션 안에는 여러 복잡한 알고리즘이 계층별로 연결되어 있어서, 알고리즘의 연산 방식이나 메모리 접근 특성이 다양하다. 여러 형태의 비전 알고리즘을 동일한 하드웨어 상에서 유기적으로 수행하기 위해서는 비동형 (heterogeneous) many core 프로세서 구조가 필수적이다. 더 나아가, 모바일 환경은 PC 환경과는 달리 전력 소모, 실리콘 면적, 메모리 대역폭 등 설계 측면에서 다양한 제약 사항을 포함하고 있기 때문에, 단일 실리콘 칩 상에 다수의 하드웨어 intellectual property (IP)를 포함하는 비동형 (heterogeneous) many-core 프로세서 설계시 이러한 제약사항들을 신중히 고려할 필요가 있다. 본 연구에서는 단일 프로세서에서 고해상도의 이미지를 실시간으로 처리할 수 있는, 에너지 효율적인 비전 프로세서 설계 방법을 다루고자 한다. 병렬 코어로는 에너지 효율과 성능이 크게 떨어지는 알고리즘을 지원하기 위해서, 에너지 효율적인 가변 (reconfigurable) 비전 가속기를 설계한다. 한편, 비전 프로세서에서 소모되는 대부분의 에너지는 병렬 코어가 사용하기 때문에 에너지 측면에서 효율적인 코어 동작 조건을 실시간으로 찾을 수 있는 전력 관리 기법도 제안한다. 모바일 환경에서 많이 활용되는 알고리즘으로는 물체 인식, 물체 추적, 이미지 스티칭 (파노라마 사진), 3D 복원 등이 있는데, 이들은 모두 특징점을 추출하고 매칭하는 알고리즘을 기반으로 동작한다. 이는 비전 애플리케이션의 기반이 되는 중요한 알고리즘인데 반해, 필요로 하는 연산량이 많아서 실시간으로 구현하기가 힘들다는 단점을 가지고 있다. 이 알고리즘을 병렬 코어와 전통적인 캐시 메모리 구조를 이용해 실시간으로 가속하고자 하는 접근들이 많이 있었지만, 고해상도 이미지에서 실시간 처리가 불가능하거나 GPU와 같이 큰 하드웨어 사용과 에너지 소모 등의 문제점을 가지고 있었다. 이는 단일 프로세서에서 고해상도의 이미지를 실시간으로 처리하기 위한 연구의 방향에서 크게 벗어난다. 특징점 추출과 매칭 알고리즘은 일종의 저수준 (low level) 알고리즘으로, 상대적으로 단순한 연산을 반복적으로 처리한다. 때문에, 아무리 간단한 연산도 매 순간 복잡한 명령어를 가져와서 해석해야 하는 병렬 코어로는 성능, 하드웨어 효율, 에너지 효율 등의 문제를 해결하기가 힘들다. 뿐만 아니라 이들 비전 알고리즘이 가지는 메모리 접근 패턴은 전통적인 캐시로는 효율적으로 지원할 수 없기 때문에 메모리에 의한 성능 저하도 피할 수 없다. 따라서, 에너지 소모 측면에서 효율적인 비전 프로세서를 구현하기 위해서, 메모리 연산과 비메모리 연산을 모두 고려한 가속기가 필요하다. 특징점을 추출하는 부분과 특징점을 매칭하는 부분은 기능적으로 서로 달라, 서로 다른 하드웨어로 구현되는 것이 일반적이었다. 하지만, 소프트웨어와 하드웨어를 동시에 최적화함으로써, 서로 다른 두 알고리즘을 비트 수준의 병렬화를 기반으로 하는 통합된 하드웨어로 구현한다. 제안하는 하드웨어는 비트 수준의 병렬화를 이용하는 여러 알고리즘을 포괄적으로 처리할 수 있기 때문에 하드웨어의 활용도를 높이고 로드 밸런싱 문제를 근본적으로 해결해준다. 더 나아가, 가변하는 (reconfigurable) 통합 메모리 구조를 제안해서, 여러 알고리즘의 복잡한 메모리 접근 방식으로 인한 성능 저하를 막아준다. 한편, 비전 프로세싱이 요구하는 엄청난 연산량을 처리하기 위해서는 멀티 코어 기반의 GPGPU (General Purpose GPU) 구조가 필수적이다. 특히 병렬 코어는 비전 프로세서에서 50% 이상의 전력 소모를 차지하고 있기 때문에, 칩을 전력- (에너지-) 효율적으로 동작시키기 위해서 dynamic voltage frequency scaling (DVFS)과 같은 동적 전력 관리 기법이 활용한다. 지금까지의 동적 전력 관리 기법들은 주어진 작업량에 따라 각 코어가 소모하는 전력을 정확하게 예측하기 위해, 각 코어의 동적 에너지 소모 특성이 균일하다고 가정했다. 하지만, 이 가정은 High-k Metal Gate (HKMG)나 Fin-fet과 같은 20nm 이하의 최신 공정에서는 더 이상 지켜지지 않는다. 이런 공정에서는 process, voltage, temperature (PVT) 편차 (variation)에 의해 민감하게 반응하는 단락 (short-circuit) 에너지가 전체 에너지의 40% 이상을 차지하고, 금속 게이트를 이용한 트렌지스터에서 일함수 (work function) 편차라는 새로운 편차가 등장하기 때문에, 동적 에너지 (dynamic energy)는 20% 범위 내에서 가변한다고 알려져 있다. 이를 아무 보정없이 활용하게 되면 동적 전력 관리 기법에서 예측하는 전력 소모 값은 실제 전력 소모 값에 비해 최대 40% 차이가 날 수 있다. 설계 시점에서 동일한 코어를 집적해도 각 코어는 서로 다른 에너지 소모 특성을 보여주게 된다. 따라서 시간에 따라 변화하는 각 코어의 에너지 소모 특성을 실시간으로 정확하게 해석해 줄 수 있어야, 동적 전력 관리 기법을 이용해서 에너지 소모를 최적화하는 것이 가능해진다. 각 코어마다 에너지 센서를 다는 방법이 있으나 집적되는 코어의 수가 늘어남에 따라서 에너지 센서에 의한 하드웨어의 면적 부담이 가중되고, 에너지 센서마다 발생하는 편차를 없애기 위해서 추가적인 보정 과정이 필요하다는 단점이 있다. 이를 위해, 각 코어의 에너지 소모 특성을 하나의 에너지 센서와 기계학습을 통해 해석한다. 전체 에너지 소모를 구성하는 동적 전력, 누설 전력, 그리고 단락 전력과 그들의 에너지 편차를 반영하는 모델을 선형 함수 (linear function) 로 제안한다. 그 후에, 최근 정보 이론 분야에서 각광받고 있는, 압축 센싱 기법을 응용하여 선형 함수 문제를 풀고 에너지 편차를 해석한다. 제안하는 기법은 무시 가능할 만한 크기의 하드웨어로 구현이 가능하면서도 10ms 내에 5% 이하의 에러로 에너지 편차를 해석할 수 있다. 이 기법은 전력 편차가 심각한 오늘날의 반도체 공정 상에서 동적 전력 관리 기법을 활용하기 위한 기반이 될 것으로 판단된다.

서지기타정보

서지기타정보
청구기호 {DEE 15082
형태사항 xii, 131 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박준석
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
수록잡지명 : "A 182mW 94.3 f/s in Full HD Pattern-Matching Based Image Recognition Accelerator for an Embedded Vision System in 0.13-um CMOS technology". Transactions on Circuits and Systems for Video Technology, Vol.23, No. 5, pp. 832-845(2013)
수록잡지명 : " A vision processor with a unified interest point detection and matching hardware for accelerating stereo matching algorithm". Transactions on Circuits and Systems for Video Technology,
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 112-121
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서