Robust real-time recognition of general objects on a power-constrained embedded system is a difficult problem. Local feature based methods like the Scale Invariant Feature Transform (SIFT) are known to have high accuracy but require complex calculations that exceed the capability of current general purpose processors. This thesis has three main contributions. First, the Unified Visual Attention Model (UVAM) is proposed to reduce the complexity of object recognition. Second, an object recognition processor is designed and implemented to achieve real-time performance while consuming low power. Third, a demonstration platform is developed to show the effectiveness of the UVAM and the proposed object recognition processor. The UVAM reduces the complexity of SIFT-based object recognition by selecting meaningful regions for processing while ignoring meaningless clutter. This is achieved by combining a newly proposed top-down attention mechanism named familiarity, with the well-known bottom-up saliency attention mechanism. Experiments on PC hardware show that execution time is reduced by 2.7x without reduction in recognition accuracy, demonstrating the effectiveness and robustness of the UVAM. The proposed object recognition processor consists of 51 IPs for accelerating the visual attention and object recognition components of the UVAM that are interconnected through a network-on-chip(NoC). The Intelligent Inference Engine (IIE), a mixed-mode neuro-fuzzy inference system, performs the top-down familiarity attention of the UVAM which guides attention toward pre-learned objects. Weight perturbation-based learning of the IIE ensures high attention precision through online adaptation. The SIFT recognition is accelerated by an optimized array of 4 20-way SIMD Vector Processing Elements, 32 MIMD Scalar Processing Elements, and 1 Feature Matching Processor. When processing 30fps 640x480 video, the 50mm^2 object recognition processor implemented in a 0.13μm process achieves 246 EGOPS/W, which is 46% higher than previous works. The average power consumption is only 345mW.
광범위한 물체에 대한 물체인식은 매우 어려운 작업으로, 현재의 PC에서조차 실시간으로 구현하는 것이 어렵다. Scale Invariant Feature Transform (SIFT) 와 같은 local 특징점에 기반한 알고리즘은 제한된 실험에서 95%에 달하는 높은 인식률을 보이지만, 복잡도가 높아 PC에서 640x480 이미지 한 장을 처리하는데 1초이상이 걸린다. 휴대용 기기와 같은 임베디드 플랫폼은 PC에 비하여 처리속도가 느리기 때문에 실시간 처리에 해당하는 초당 30 프레임의 성능을 얻기 위해서는 알고리즘적인 접근과 하드웨어적인 접근이 병행되어야 한다.
본 연구는 저전력 실시간 물체인식기를 구현하기 위한 효율적인 알고리즘과 이를 위해 최적화된 시스템-온-칩, 그리고 이 둘을 집적한 시스템 시연을 아우른다. 통합시각주의모델이라고 명명된 알고리즘은 입력된 이미지에서 물체인식에 쓸모 있는 영역만을 검출하여 선택적으로 물체인식을 수행함으로써 기존보다 적은 계산량으로 기존과 동일한 정확도를 실현하였다. 특히, 기존에 알려진 saliency 기반 시각주의모델의 단점인 복잡한 배경이 있을 때의 성능을 개선하기 위해, 학습된 DB 결과에 기반한 familiarity 라는 새로운 알고리즘을 제안하였다. 실험결과, Saliency와 familiarity를 모두 고려한 통합시각주의모델은 기존의 Scale Invariant Feature Transform (SIFT) 기반 물체인식과 동일한 정확도를 가지면서(사용된 테스트 세트에 대해 95% true positive), 2.7배 빠른 속도를 보여주었다.
통합시각주의모델에 기반한 물체인식 칩이 구현되고 검증되었다. 제안된 물체인식 칩은 SIFT 물체인식을 빠르게 수행하기 위한 36개의 병렬 PE (processing element)들, 통합시각주의모델을 수행하기 위한 전용 블록들, 그리고 저전력을 실현하기 위한 dynamic voltage and frequency scaling 제어 블록이 포함되었다. 36 개의 병렬 PE들은 20-way SIMD datapath를 갖는 VPE(vector processing element) 4개와 32개의 1-way datapath를 갖는 SPE(scalar processing element) 16개의 이종 멀티코어(heterogeneous multi-core) 구조로 이루어져 있다. VPE들은 image filtering과 같이 픽셀 병렬도가 높은 작업을 전담하고, SPE들은 histogram과 같이 순차적인 작업을 전담함으로써 동일한 PE만을 집적하였을 때보다 효율적인 처리가 가능하다. SIFT 매칭을 수행하는 FMP(feature matching processor)는 locality sensitive hashing(LSH) 알고리즘을 수행하여 계산량을 획기적으로 줄였으며, 데이터 캐싱기법과 압축기법이 적용되어 필요한 메모리 대역폭을 61% 줄일 수 있었다. 프로세서의 각 IP들을 이어주는 NoC(Network-on-Chip)에는 workload를 예측하고 그에 따라 IP에 priority를 달리하는 routing 알고리즘을 적용하여 SIFT feature 계산시 12%의 성능개선을 달성했다. 결과적으로 기존 물체인식 칩에 비해 46% 이상 높은 전력효율을 달성하여 VGA이미지에 대해 345mW 30fps 물체인식을 실현하였다.
제안된 알고리즘과 하드웨어를 기반으로 시스템 시연을 구현하였다. 제작된 칩은 상용 ARM 프로세서, FPGA, 대용량 메모리와 함께 집적되어 물체인식을 수행할 수 있는 검증 플랫폼을 이루었다. 이러한 검증 플랫폼을 기반으로 증강현실(augmented reality)을 위한 시연용 헤드셋 시스템이 개발되었다. 완성된 물체인식 시스템을 헤드셋에 집적함으로써, 휴대용 플랫폼상에서의 저전력 실시간 물체인식의 가능성을 증명하였다.