A need to develop a footsteps sound assets retrieval and auto-triggering method for in-game cutscene Foley work was identified. Footsteps assets retrieval and auto-triggering improve the efficiency of Foley artist's work. This paper introduces how to search for footsteps sound assets through metric learning and how to predict footsteps sound on a frame-by-frame. Footsteps sound asset retrieval model trained with metric learning by structure preserving. Retrieval performance has been improved using video and audio features extracted from the pre-trained model learned through audio-visual correspondence as training data. Footsteps sound auto-triggering model was trained with skeleton data and footsteps sound origin location data labeled via beat predominant local pulse. The proposed method allows us to search for appropriate footsteps sound assets for silent game videos, and specify where to insert them.
인게임 컷신 폴리 작업을 위한 발걸음 소리 에셋 검색 및 오토트리거링 방법을 개발해야 할 필요성이 있다. 발걸음 소리 에셋 검색과 오토트리거링은 폴리 아티스트의 작업 능률을 향상하기 때문이다. 이 논문은 발걸음 소리 에셋 검색 방법과 프레임 단위로 발걸음 소리를 예측하는 방법에 대해 소개한다. 발걸음 소리 에셋 검색 모델은 모달리티의 특성을 보존하여 메트릭 러닝했다. 학습 데이터로 시청각 대응을 통해 학습한 사전학습 모델로 추출한 비디오와 오디오 피처 데이터를 사용했을 때 검색 성능이 향상되었다. 발걸음 소리 오토 트리거링 모델은 스켈레톤 데이터와 우세 지역 펄스 비트를 통해 라벨링한 발걸음 소리 발생 위치 데이터로 학습했다. 제안된 방법으로 무성 게임 비디오에 적합한 발걸음 소리 에셋을 검색하고, 에셋을 삽입할 위치를 특정할 수 있다.