서지주요정보
Image-optimized rolling cache and parallel processing architecture for real-time memory-intensive vision algorithms = 실시간 메모리 집중적인 비전 알고리즘들을 위한 영상 최적화된 롤링 캐쉬 및 병렬 처리 하드웨어 구조
서명 / 저자 Image-optimized rolling cache and parallel processing architecture for real-time memory-intensive vision algorithms = 실시간 메모리 집중적인 비전 알고리즘들을 위한 영상 최적화된 롤링 캐쉬 및 병렬 처리 하드웨어 구조 / Young-Geun Kim.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025431

소장위치/청구기호

학술문화관(문화관) 보존서고

DRE 13002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

FPGAs are often used as customized hardware accelerators for real-time image processing and vision applications. However, increasing image resolution requires the use of external SDR/DDR memories, and the arbitrary pixel access patterns used in most algorithms reduce their throughput as a result of increasing access latency. Efficient cache design is paramount in real-time memory-intensive applications. Its effectiveness depends on the spatial and temporal locality of data access. In image processing, the spatial locality denotes the neighboring pixels, located horizontally and vertically in 2-D. However, the conventional caches used in general processors cannot define the vertical locality. We present a rolling cache optimized for image format and algorithms, a method to reduce the miss penalty by moving the cache horizontally and vertically, and a parallel processing architecture with interpolation, multi-level and multiple caches. To support our idea, we compare it with other types of caches and show that the average memory access time and the memory bandwidth are decreased by 28% and 74%, respectively, for a 2048 x 2048 image. Its performance is greater than that of the 16-way set associative cache, but the tag memory size is slightly larger than that of the direct-mapped cache. Using three different experiments, we show that the proposed architecture is applicable to a number of algorithms, if data access follows an arbitrary curve or block-wise pattern, which is the usual case with image processing and vision algorithms. If an application is based on local data access in resource-limited systems such as mobile devices, it is possible to achieve high performance with lower operational frequency using the proposed architecture. To prove the effectiveness of the rolling cache-based parallel processing architecture for camera markets, three major applications are chosen for experiment. The first is random homogeneous transformation for CCTV markets, where the need is to use least resources and to have best performance. However, most works are based on SRAM architecture only to process small size of images. The architecture can be the basis for other image processing applications having curve-wise pixel access patterns like lens distortion correction, 3-D or panorama view mapping and also stereo disparity computation. The second is multiple object tracking for the black box or guidance systems in smart vehicle. The nature of tracking algorithms have abundant memory access for iterative estimation, which need to run as many operations as possible in parallel to make the processing in real-time. The last is the video stabilization for majority of CMOS image sensors in mobile market. Due to the rolling shutter to increase sensitivity, it causes severe distortions. It has also been one of the major challenges to have a mathematical representation of CMOS rolling effect depicting the practical scenario, while keeping accuracy and stability. For the first and second experiments, their architectures are proposed to use least amount of resources, but to have best performance. they are verified using HDL simulation and synthesized in FPGA devices. The methods to estimate the miss penalty are discussed and evaluated. For the proposed architecture and applications, computer vision primitive cores to improve system performance are presented: Xbit floating point units to reduce resource requirement while keeping computation accuracy, video processing protocols for interfacing algorithm-specific modules and an adaptive SDRAM controller to maximize the data transfer rate of SDR/DDR memory. For the last CMOS sensor application, a way to understand the rolling shutter mechanism is described and the corresponding mathematical model are proposed: Section-wise CCD sensor model and CMOS seven parameter model. For implementation, the iterative parameter estimation algorithm increases model accuracy, the motion interpolation and correction methods keep stability and accuracy, incremental form of the model reduces resources, and rolling cache-based parallel processing architecture increases system performance. In order to have a fair comparison, the accuracy and stability of the proposed model is compared with other types of models.

실시간 영상처리 및 컴퓨터 비전 알고리즘들을 위해, FPGA가 다양한 자원과 목적에 최적화된 구조 설계의 용이함으로 인해, 맞춤형 하드웨어 가속기로서 자주 사용된다. 하지만, 영상 해상도의 증가는 외부 SDR/DDR과 같은 큰 영상 버퍼를 요구하고, 임의의 위치 데이터 접근시 발생하는 지연들은 데이터 전송량을 떨어뜨린다. 이는 서브 픽셀 계산이나 잦은 메모리 접근을 요구하는 최적화 기법에 기반한 알고리즘들을 실시간 처리하기 어렵게 만든다. 본 논문에서는, 영상 및 알고리즘에 최적화된 새로운 형태의 캐쉬인 rolling cache를 제안한다. 이는 캐쉬를 상하좌우, 어느 방향으로 든지 이동시킴으로써 cache miss penalty 를 최소화하여 성능을 극대화시키는 방법이다. 실시간 메모리 접근이 많은 영상 처리 및 비전 알고리즘들에 대한 적합성을 검증하기 위해, rolling cache를 포함한 파이프라인 방식의 보간 아키텍쳐를 설계하고, 이를 다수의 다중 구조로 확장하여, 최상의 성능을 갖도록 하였다. HDL 시뮬레이션을 통해, 2048 x 2048의 영상에 대해 다른 cache들과 성능을 비교하여, 평균 메모리 접근 시간 및 대역폭을 28%, 74% 이상 감소시킬 수 있음을 보인다. 구조의 적합성, 효율성 검증을 위해, 실시간 처리 및 구조 설계의 어려움이 있었던 알고리즘들 중 카메라 시장에서 가장 요구되는 세가지를 선정하여 그 가능성과 성능을 입증한다. 가장 먼저 적용할 대상은 CCTV에서 wide-angle, fish-eye 혹은 omnidirectional lens 사용시 geometric distortion correction 혹은 영상 변환 문제로, 최소의 자원으로 최대의 성능이 종종 요구되나, 많은 논문들이 적절한 방법을 제시하지 못하고 있다. 이를 위해 이러한 알고리즘들의 근간이 되는 random homogeneous transformation을 실험하고, 그 구조, 합성 및 실험 결과를 보인다. 두 번째 대상은, 차량에서 block box나 guide 시스템에서 요구되는 물체 추적 알고리즘으로, 잦은 메모리 접근으로 인해 연산 지연이 심하고, 고성능을 위해서는 최대한 병렬 처리 구조가 필요하다. 세 번째 대상은 mobile platform의 CMOS sensor로서, rolling shutter 로 인한 왜곡 보상 및 안정화 문제는 아직 적절한 수학적 모델조차 제안되질 않았다. 첫번째, 두번째 문제들은 이미 적절한 수학적 모델들이 존재하고, 현재 많은 논문들이 동작 주파수, 파워 소모량, 자원 소모량, 성능 등의 관점에서 접근을 하고 있다. 본 논문에서는 영상에 최적화된 rolling cache 구조를 응용하여, 메모리 bandwidth를 최소화하고, 낮은 동작 주파수에서 적은 자원으로 최대의 성능을 얻을 수 있는 방법을 제안한다. 성능 검증을 위한 적절한 평가 방법을 제시하고, 제안하는 문제들의 하드웨어 구조 설계를 위한 컴퓨터 비전 관련 하드웨어 코어들을 제시한다: 계산 정확도를 유지하면서 자원을 줄일 수 있는 Xbit 부동 소수점, 알고리즘 관련 모듈들간의 효율적인 데이터 전송을 위한 데이터 패킷 전송 프로토콜, 외부 SDR/DDR 메모리의 데이터 전송률을 극대화하기 위한 적응형 SDRAM 제어기 등이 이에 해당한다. 세번째 대상인 mobile device상에서 주로 사용되는 고해상도, 소형의 CMOS sensor들은 Rolling shutter로 인해 distortion이 발생한다. 이는 해상도가 높을수록 더욱 심하여, 동영상 촬영시, 사용자가 보기 좋지 않은 영상을 만들어 낸다. 이를 위해 그 동안 제안된 최근의 방법들은 이러한 왜곡을 적절히 보상하지 못하며, 고성능 시스템에서조차 실시간으로 구현되지 않는다. 본 논문은 이를 해결하기 위해 Section-wise CCD modeling 방법을 제안하고, 이를 구현 가능한 형태인 CMOS 7 parameter model을 처음으로 제안한다. 또한, 이를 자원이 제한된 mobile 시스템에서 구현하기 위해 5가지 관점에서 각각 최적화한 SoC Solution 을 제안한다. Accuracy를 높이기 위한 LM기반의 반복적인 파라미터 추측방법, stability를 높이기 위한 motion interpolation 및 correction방법, 계산 시간을 줄이기 위한 image pyramid 및 interest pixel patch, 연산시 memory access bottleneck을 최소화하기 위한 rolling cache 기반의 병렬처리 architecture들을 제안한다. 실험결과로서, synthetic data를 사용하여, 다른 최근의 논문들의 결과들과 정확성을 비교 평가하여, 우수성을 입증하고, 다른 논문들에서 사용된 실제 영상들을 사용하여 결과를 비교한다.

서지기타정보

서지기타정보
청구기호 {DRE 13002
형태사항 viii, 91 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김영근
지도교수의 영문표기 : In-So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "System-on-Chip Solution of Video Stabilization for CMOS Image Sensors in Hand-held Devices". IEEE Trans. on Circuits and Systems for Video Technology, v.21.no.10, pp.1401-1414(2011)
수록잡지명 : "Image-Optimized Rolling Cache: Reducing the Miss Penalty for Memory-Intensive Vision Algorithms". IEEE Trans. on Circuits and Systems for Video Technology, submitted,
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 82-86
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서