서지주요정보
Modeling, customization, and interpolation of head-related impulse responses based on principal components analysis = 주성분 분석법을 이용한 머리전달함수의 모형화, 맞춤 및 보간법
서명 / 저자 Modeling, customization, and interpolation of head-related impulse responses based on principal components analysis = 주성분 분석법을 이용한 머리전달함수의 모형화, 맞춤 및 보간법 / Sung-Mok Hwang.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020727

소장위치/청구기호

학술문화관(문화관) 보존서고

DME 09058

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Virtual Auditory Display (VAD), which is defined as systems or technologies generating spatialized sounds and conveying them to a listener, has been paid much attention in many application fields. The Head-Related Transfer Functions (HRTFs), which describe the physical transform of sound waves due to physical structures of a listener, such as head, pinna, shoulder, and torso, play an important role for rendering of high-fidelity VAD. Recently, three issues, i.e. modeling, customization, and interpolation of HRTFs, are coming into the spotlight for high-fidelity VAD and its real-time implementation. This thesis deals with the three aforementioned issues based on general basis functions. The general basis functions are obtained from Principal Components Analysis (PCA) of HRTFs or Head-Related Impulse Response (HRIR) which is the Fourier Transform pair of the HRTF. The main advantage of using the general basis functions is that the dimension of dataset can be effectively reduced without loss of meaningful information. Four kinds of PCA models based on HRIRs, complex-valued HRTFs, augmented HRTFs, and log-magnitudes of HRTFs are investigated and their modeling performances are compared. In terms of the number of Principal Components (PCs) needed to model the HRTFs or HRIRs with the same accuracy, all the PCA models show almost the same modeling performances. The systematic elevation dependencies in the weights of PCs (PCWs) are observed. The physical meaning of PC and the elevation dependencies of PCWs are explained in detail. In addition, the contribution of each PC to the vertical perception or the front-back discrimination is clarified. The PCs obtained in this thesis includes both the inter-elevation variation and the inter-subject variation, and the degree of contribution to each of these variations is also investigated. It is verified through a numerical error analysis and a series of subjective listening tests that the PCs obtained from PCA of the CIPIC HRTF database can be general basis functions to model arbitrary subject’s HRTFs or HRIRs. This thesis also deals with the HRIR customization for synthesizing stationary sounds by letting a subject tune the weight on each PC at each static source position. However, tuning many PCWs is very exhausting and time-consuming task, thus the number of tuning PCWs are reduced based on the order of magnitude of inter-subject variation in PCW at each elevation. To verify the feasibility of the proposed method, the customization is carried out by three subjects. At each elevation, the only 3 PCWs are tuned by the subjects and the rest of PCWs are chosen to be just mean values of all subjects in the CIPIC HRTF database. In the subjective listening test results, it is found that there is no statistically significant difference in localization errors between the individual and customized HRIRs, whereas statistically significant difference is observed between the individual and Kemar HRIRs. A simple but effective HRIR interpolation method based on the general basis functions is proposed. PCW of each subject can be decomposed into the common elevation dependency of PCW across all subjects and the inter-subject variation in PCW. In this thesis, the only inter-subject variation in PCW is modeled as a simple linear function of elevation. This approach can be applied to interpolate HRIRs between two adjacent source positions because the HRIR is a weighted linear combination of the PCs. From a quantitative error analysis, it is found that the proposed method provides more accurate performance for the HRIR interpolation than the conventional linear and spline methods, and the enhancement of performance is more prominent with larger angular span, i.e. lower spatial resolution. A novel HRIR customization method for synthesizing both stationary and moving sounds is proposed based on subjective tuning of the inter-subject variations. The entire median-plane HRIRs in the upper hemisphere can be customized by subjective tuning of three parameters at three static positions, 0°, 70°, and 180° of elevation. In other words, one can obtain the customized median-plane HRIRs by tuning of just nine parameters. From a series of subjective listening tests with four subjects, it is validated that the proposed method can provide effective sound cues for synthesizing both stationary and moving sounds, and the localization performance with the customized HRIRs is significantly better than that with the non-individualized (Kemar) HRIRs.

3차원 공간상의 임의의 위치에 가상 음원을 생성하여 사용자로 하여금 가상 음원의 효과를 느끼도록 해주는 기술을 통칭하여 가상 입체 음향 구현 기술이라 하는데, 많은 응용 분야에서 관심을 받고 있다. 음원의 음압과 고막에 전달되는 음압 사이의 음향학적 전달함수인 머리전달함수가 생생한 가상 입체 음향 구현을 위해 필요한 중요 요소중의 하나이다. 최근, 보다 생생한 입체 음향의 실시간 구현을 위해 머리전달함수의 모형화 방법, 맞춤법, 보간법의 세 가지 문제가 크게 대두되고 있다. 본 논문은 위의 세 가지 문제를 보편적인 기저함수를 도입하여 다루고자 한다. 보편적인 기저함수는 머리전달함수를 이용한 주성분 분석법을 이용하여 구한다. 중요한 정보의 손실 없이 다루는 데이터의 차원을 크게 줄일 수 있다는 것이 보편적인 기저함수를 도입함으로써 얻을 수 있는 가장 큰 장점이다. 본 논문에서는 주파수와 시간 영역에서 머리전달함수를 이용하여 주성분 분석법에 기반한 네 가지 종류의 모델을 다룬다. 네 가지 모델은 모두 비슷한 모형화 성능을 보인다. 기저함수의 가중치들은 음원의 고도각에 의존하는 특징을 보인다. 뿐만 아니라 각 기저함수의 물리적인 의미와 고도각 인지 및 음원 위치의 앞-뒤 구분을 위한 기여도 분석이 가능하다. 본 논문에서 구한 기저함수는 음원의 위치마다 달라지는 머리전달함수의 변화와 개개인마다 달라지는 머리전달함수의 변화를 모두 표현할 수 있다. 정량적인 오차분석과 다수의 피실험자를 이용한 청음평가를 통해 본 논문에서 구한 기저함수가 임의의 개인 머리전달함수를 표현할 수 있는 보편적인 기저함수가 됨을 밝힌다. 가상의 정지음원을 생성하기 위하여, 각 정지음원 위치에서 보편적인 기저함수의 가중치를 사용자가 직접 조절하도록 함으로써 맞춤형 머리전달함수를 생성하는 기법을 제안한다. 그런데, 많은 수의 가중치를 동시에 조절하는 것은 많은 시간을 요구하고 번거로운 일이므로 조절해야 하는 가중치의 수를 적절하게 줄일 필요가 있다. 본 논문에서는 조절해야 하는 가중치를 선정하기 위해 개개인마다 달라지는 가중치의 변화량 크기에 주목한다. 각각의 정지음원의 위치에서 개개인마다 변화량이 큰 순서로 세 개의 가중치만을 사용자가 직접 조절하고, 변화량이 적은 가중치 값은 많은 사람들의 평균값을 취하는 방법을 사용한다. 세 명의 피실험자를 이용한 청음평가를 통해 성능을 검증한다. 그 결과, 측정한 개인의 머리전달함수를 이용한 경우와 맞춤화된 머리전달함수를 이용한 경우의 위치 추정오차는 통계적인 차이를 보이지 않는다. 그러나 더미헤드에서 측정한 비 개인화된 머리전달함수를 사용하는 경우에는 통계적으로 큰 차이를 보인다. 보편적인 기저함수에 기반하여 간단하지만 효과적인 머리전달함수 보간법을 제안한다. 개개인의 기저함수의 가중치는 고도각에 의존하는 많은 사람들의 공통적인 경향과 그 사람 고유의 변화량으로 구분할 수 있다. 본 논문에서는 개개인 고유의 변화량만을 고도각을 변수로 하는 선형 함수로 모형화함으로써 가중치를 보간할 수 있다. 머리전달함수는 보편적인 기저함수의 선형 결합으로 표현 가능하기 때문에 가중치 보간을 통해 궁극적으로는 머리전달함수를 보간할 수 있다. 제안하는 방법과 기존의 선형 보간법, 스플라인 보간법과의 보간화 성능을 정량적으로 비교한다. 그 결과, 제안하는 방법이 기존의 방법들보다 우수한 보간화 성능을 보이며 머리전달함수의 각도 간격이 크면 클수록 그 성능차이는 더욱 뚜렷해진다. 개개인 고유의 가중치 변화량만을 사용자가 직접 조절함으로써 정지음원뿐만 아니라 이동음원 생성을 위한 맞춤화된 머리전달함수를 구할 수 있는 방법을 제안한다. 상반구 중앙면상의 모든 음원 위치의 머리전달함수는 0°, 70°, 180° 세 위치에서 각각 세 가중치의 개인 변화량만을 사용자가 조절함으로써 맞춤화된 머리전달함수를 생성할 수 있다. 즉, 사용자가 단지 9개 파라미터만을 조절함으로써 상반구 중앙면상의 모든 맞춤화된 머리전달함수를 생성할 수 있다. 네 명의 피실험자를 이용한 청음평가를 실시하여 그 성능을 검증한다. 그 결과, 제안하는 방법이 정지음원과 이동음원을 효과적으로 생성해 낼 수 있으며, 맞춤화된 머리전달함수를 사용하는 경우에 비 개인화된 머리전달함수를 사용하는 경우보다 위치 추정 성능이 향상된다.

서지기타정보

서지기타정보
청구기호 {DME 09058
형태사항 xvii, 216 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 황성목
지도교수의 영문표기 : Young-Jin Park
지도교수의 한글표기 : 박영진
수록잡지정보 : "Interpretations on principal components analysis of head-related impulse responses in the median plane". Journal of the Acoustical Society of America, Vol. 123, No. 4, pp. EL65??EL71(2008)
수록잡지정보 : "Modeling and customization of head-related impulse responses based on general basis functions in time domain". Acta Acustica united with Acustica, Vol. 70, Issue 5, pp. 771??776(2008)
Appendix : 1, Pole-Zero modeling of general basis functions. - 2, Theoretical equivalency between PCA models based on HRIPs and augmented HRTFs. - 3, Just noticeable difference in HRIRs. - 4, A probabilistic method for analysis of sound localization performance
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학전공,
서지주기 References : p. 167-174
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서