Due to the rapid development of artificial intelligence and computing infrastructure, which makes it possible that personalized recommendations reflecting individual preference and propensity, personalized recommendations come into the spotlight as a critical technology in the online service market. Personalized recommendation systems, contrastively to convolutional neural networks (CNNs) and recurrent neural networks (RNNs), have distinct nature requiring huge data storage, high memory bandwidth, and high-performance core. Owing to these characteristics, GPU memory can not be used for recommendation systems because of its limitation of size, thereby most of the service providers have used CPU-centric server systems which make them suffer from increase end-to-end latency and quality debased algorithm. This dissertation provides systemic analysis and detailed workload characterization on production-level personalized recommendations on the top of its nature, and propose an accelerator to effectively address the challenges of it. The proposed accelerator has been implemented and demonstrated to show 1.7-17.2X performance speedup and 1.7-19.5X energy-efficiency improvement than conventional approaches.
인공지능 및 컴퓨팅 기술의 발달로 인해 온라인에서 개별 사용자의 성향과 선호도를 반영한 실시간 맞춤형 서비스를 제공하는 것이 가능해지면서, 딥 러닝 기반의 추천시스템(이하 추천 시스템)이 온라인 서비스 시장의 핵심 기술로 큰 주목을 받고 있다. 추천 시스템은 기존에 널리 사용되는 합성곱 신경망이나 회기 신경망 등과는 달리, 큰 저장공간과 높은 주기억장치 대역폭, 중앙처리장치의 높은 연산 성능을 요구한다. 이러한 특성으로 저용량 저장공간을 갖는 그래픽처리장치를 사용할 수 없으므로, 대부분의 서비스 제공 업체는 중앙처리장치 중심으로 추천 시스템을 서비스하고 있으며, 이에 따른 서비스 지연시간 증가와 알고리즘의 질적 하락 등의 어려움을 겪고 있다. 본 학위 논문은 추천 시스템의 특성 연구를 바탕으로 병목점을 분석하고, 이를 효과적으로 해결할 수 있는 추천 시스템 가속기를 제안한다. 제안된 가속기는 지연시간을 1.7-17.2배, 에너지 효율성을 1.7-19.5배 향상 시킬 수 있다.