In this paper, we propose the deep reinforcement learning-based (DRL) optimization method by defining design parameter optimization of hybrid bonding TSV for next-generation high-bandwidth memory (HBM) as a problem. The proposed method is configured in the form of extracting the action that obtains the best reward for the state using deep reinforcement learning. The agent trained through the proposed method can quickly and accurately provide optimal hybrid bonding TSV design based on the Cu pad dimension, which is an interconnection parameter, considering signal integrity. In the process, a recurrent neural network-based policy network to reflect the coupling between design parameters, a fast and accurate modeling-based reward simulation method for evaluating signal integrity of design parameters, and a clipping policy gradient (CAPG) algorithm for stable learning were proposed. To verify the proposed method, it was applied to the hybrid bonding TSV of high bandwidth memory (HBM) and compared with the conventional optimization method in terms of performance. As a result, the proposed methodology has time efficiency and optimality compared to the conventional optimization method.
본 논문에서는 최초로 차세대 고대역폭메모리(HBM)를 위한 하이브리드 본딩 TSV의 디자인 파라미터 최적화를 문제로 정의하여 심층 강화학습 기반(DRL)의 최적화 방법론을 제안하였다. 제안된 방법은 심층 강화학습을 사용하여 상태에 대해서 가장 좋은 보상을 얻는 액션을 추출하는 형태로 구성하였다. 제안된 방법을 통해서 훈련된 에이전트는 신호 무결성을 고려하여 인터커넥션 파라미터인 Cu pad 치수에 기반한 최적의 하이브리드 본딩의 TSV 디자인을 빠르고 정확하게 제공할 수 있다. 그 과정에서 디자인 파라미터 간의 커플링을 반영하기 위한 순환 신경망 기반 정책 네트워크와 디자인 파라미터의 신호 무결성 평가를 위한 빠르고 정확한 모델링 기반의 리워드 시물레이션 방법 그리고 안정적인 학습을 위한 클리핑 정책 그라디언트 (CAPG) 알고리즘을 제안하였다. 제안된 방법을 하이브리드 본딩 TSV가 적용된 고대역폭메모리(HBM)에 적용하여 기존 최적화 방법과의 비교 검증을 하였다. 그 결과, 제안된 방법론은 기존의 최적화 방법 대비 시간 효율성과 최적성을 가짐을 입증하였다.