서지주요정보
Controllable waveform-domain diffusion model for event-guided foley sound synthesis = 제어 가능한 이벤트 가이딩 폴리 사운드 합성을 위한 웨이브폼 도메인에서의 디퓨전 모델 활용
서명 / 저자 Controllable waveform-domain diffusion model for event-guided foley sound synthesis = 제어 가능한 이벤트 가이딩 폴리 사운드 합성을 위한 웨이브폼 도메인에서의 디퓨전 모델 활용 / Yoonjin Chung.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041165

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23048

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper addresses the challenge of generating realistic and event-aligned Foley sound effects, which play a crucial role in enhancing the immersive experience of various media forms. We propose a generative audio synthesis system that incorporates sound class category and event timing conditions to generate appropriate waveforms. To preserve temporal information and enhance synchronization with specific events, we introduce Block-FiLM, a block-wise feature linear modulation method. Our approach is demonstrated to significantly improve the quality and alignment of generated sounds by experiments and ablation studies. Evaluation results based on objective metrics and subjective listening tests confirm the effectiveness of our approach. Overall, this work contributes to the advancement of Foley sound synthesis and indicates the potential of generative models for automating and streamlining sound production in various domains.

이 논문은 실제 소리에 가까우면서 동시에 주어진 이벤트 타이밍을 고려한 효과음 오디오 생성을 목표로 한다. 소리 클래스 범주와 이벤트 조건을 포함한 오디오 합성 시스템을 제안하고자 첫째, 시간 정보를 보존하고 특정 이벤트와의 동기화를 강화하기 위해 Block-FiLM 이라는 블록 단위의 특성 선형 변조 방법을 고안, 둘째, 선행 연구에 대한 실험 및 모듈별 비교를 통해 우리의 접근법들이 생성된 사운드의 품질과 이벤트와의 정렬을 크게 향상시키는 것을 확인하였다. 또한 객관적인 평가 지표와 청취 테스트를 통해 제안된 모델의 효과를 확인하고 분석하였다. 이 연구는 미디어의 몰입 경험을 향상시키는 데 중요한 역할을 하는 효과음을 생성 모델을 통해 생성하고 제어할 수 있음을 보여줌으로써, 다양한 분야에서의 효과음 제작 자동화 및 간소화 가능성을 보인다.

서지기타정보

서지기타정보
청구기호 {MAI 23048
형태사항 iv, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정윤진
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 25-27
주제 Foley sound synthesis
Timing guidance
Waveform domain diffusion
폴리 사운드 합성
타이밍 가이던스
웨이브폼 도메인 디퓨전
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서