A 99.4 fps optical flow estimation (OFE) processor with image tiling is proposed for action recognition in mobile devices. The OFE is essential for the high action recognition accuracy. However, it is unsuitable for real-time constraint in a mobile computing environment because it requires a huge amount of external memory accesses (EMAs) and matrix computations. For mitigating the external memory bandwidth requirement, this paper proposes the tile-based hierarchical OFE. It divides input images into several tiles and enables intermediate data reusing with 326.4 KB on-chip memory and 175.8 MB/s external memory bandwidth. Moreover, a background decision unit with early termination is proposed to reduce computation workload. It gets rid of unnecessary matrix computation by terminates the computation early for zero optical flow region. As a result, the proposed features reduce external memory bandwidth by 99.3 % and increase throughput by 50.7 %, respectively. The proposed $12.8 mm^2$ OFE processor is implemented in 65 nm CMOS technology, and it achieves the real-time OFE with 99.4 frames-per-second (fps) throughput for an image resolution of QVGA (320 × 240).
모바일 장치에서 동작 인식을 위해 이미지 타일링을 사용하는 99.4 fps 광류 추정 프로세서가 제안되었다. 광류 추정은 높은 동작 인식 정확도를 위해 필수적이다. 그러나 거대한 양의 외부 메모리 접근 및 행렬 연산이 필요하기 때문에 모바일 컴퓨팅 환경에서의 실시간 제약 조건에는 부적합하다. 본 논문에서는 외부 메모리 대역폭 요구를 완화하기 위해 타일 기반의 계층적 광류 추정을 제안한다. 제안된 알고리즘은 입력 이미지를 여러 타일로 나눔으로써, 326.4 KB의 온칩 메모리 및 175.8 MB/s 외부 메모리 대역폭으로 광류 추정을 위한 중간 데이터를 재사용 할 수 있다. 또한, 연산 요구량을 줄이기 위해 조기 종료 기능이 있는 배경 결정 유닛을 제안하였다. 그것은 광류의 크기가 0인 이미지 영역에서는 조기에 계산을 종료함으로써 불필요한 행렬 연산을 제거한다. 결과적으로, 제안된 특징들은 외부 메모리 대역폭을 99.3 % 줄이고 처리량을 50.7 % 증가시킨다. 제안된 12.8 mm2 OFE 프로세서는 65 nm CMOS 기술로 구현되었으며 QVGA (320 × 240)의 이미지 해상도에 대해 99.4 fps로 실시간 광류 추정을 수행한다.