This paper addresses the challenge of generating realistic and event-aligned Foley sound effects, which play a crucial role in enhancing the immersive experience of various media forms. We propose a generative audio synthesis system that incorporates sound class category and event timing conditions to generate appropriate waveforms. To preserve temporal information and enhance synchronization with specific events, we introduce Block-FiLM, a block-wise feature linear modulation method. Our approach is demonstrated to significantly improve the quality and alignment of generated sounds by experiments and ablation studies. Evaluation results based on objective metrics and subjective listening tests confirm the effectiveness of our approach. Overall, this work contributes to the advancement of Foley sound synthesis and indicates the potential of generative models for automating and streamlining sound production in various domains.
이 논문은 실제 소리에 가까우면서 동시에 주어진 이벤트 타이밍을 고려한 효과음 오디오 생성을 목표로 한다. 소리 클래스 범주와 이벤트 조건을 포함한 오디오 합성 시스템을 제안하고자 첫째, 시간 정보를 보존하고 특정 이벤트와의 동기화를 강화하기 위해 Block-FiLM 이라는 블록 단위의 특성 선형 변조 방법을 고안, 둘째, 선행 연구에 대한 실험 및 모듈별 비교를 통해 우리의 접근법들이 생성된 사운드의 품질과 이벤트와의 정렬을 크게 향상시키는 것을 확인하였다. 또한 객관적인 평가 지표와 청취 테스트를 통해 제안된 모델의 효과를 확인하고 분석하였다. 이 연구는 미디어의 몰입 경험을 향상시키는 데 중요한 역할을 하는 효과음을 생성 모델을 통해 생성하고 제어할 수 있음을 보여줌으로써, 다양한 분야에서의 효과음 제작 자동화 및 간소화 가능성을 보인다.