Thanks to enhancing image-text retrieval(ITR) application based on cross-modal retrieval, the application's latency is reduced by extracting feature embeddings of image and text offline. However, due to the similarity search that is the application's bottleneck, it is still not feasible to service online ITR according to our analysis of ITR workloads on GPU. In this paper, we propose a novel software-hardware design to accelerate the similarity search and implement it on a Xilinx Alveo U280 card. We reduce the dataset by 92.4% through quantizing embedding dataset from 32-bit floating point to 8-bit fixed point and reconstructing sparse text embedding matrices to be dense. Our reconstructed dataset searching algorithm is implemented as a 4-stage pipeline and leverages our custom dataflow, which minimizes off-chip data transfer. We achieve up to 214.5x and 8.3x faster and up to 264.2x and 41.7x more energy-efficient than the baseline and optimized GPU design, respectively, on the MS-COCO 5K dataset.
교차 모달 검색을 기반으로 한 이미지-텍스트 검색(ITR) 애플리케이션의 발전으로 오프라인에서 이미지 및 텍스트 특징 임베딩을 추출하여 애플리케이션의 지연시간이 줄어들었다. 그러나 ITR 어플리케이션의 병목 구간인 유사성 검색으로 인해 GPU에서의 ITR 워크로드 분석에 따르면 온라인 ITR 서비스는 여전히 불가능합니다. 이 논문에서 우리는 이 유사성 검색을 가속하고 Xilinx Alveo U280 카드에 구현하기 위한 새로운 소프트웨어-하드웨어 설계를 제안한다. 임베딩 데이터 세트를 32bit 부동소수점에서 8bit 고정소수점으로 정량화하고 희소 텍스트 임베딩 행렬을 밀집 행렬로 재구성하여 해당 데이터 세트의 크기를 92.4%만큼 줄였다. 또한 재구성된 데이터 세트에 대한 검색 알고리즘은 오프칩 데이터 전송을 최소화하는 맞춤형 데이터 플로우를 활용하며 4단계 파이프라인으로 구현된다. 이를 통해 우리는 MS-COCO 5K 데이터 세트에 대해 기준 및 최적화된 GPU 기반 설계보다 각각 최대 214.5배 및 8.3배 더 빠르고 최대 264.2배 및 41.7배 더 에너지 효율적인 설계를 할 수 있다.