In the object-based audio system, information of sound sources and reverberant room are saved separately so that a renderer reproduces realistic and interactive sound field. Reverberation of recorded sources should be removed to implement the system. Recent studies show that deep neural networks (DNNs) can learn dereverberation using multi-channel reverberant signals. However, they’ve mainly dealt with the magnitude spectrogram except the phase, which led to degraded speech quality. To relieve the issue, an end-to-end DNN model using time-domain directional features is proposed in the research. The features are related to 3-dimensional acoustic intensity, useful to infer the degree of reverberation and the direction of direct and reflected waves. Compared with the original model and prior techniques, the modified DNN model for efficient learning shows de-reverberation performance at the significantly lower computational complexity.
객체 기반 오디오 시스템은 마이크로폰 어레이로 녹음된 신호에서 개별 음원에 대한 정보와 공간 정보를 분리하여 저장한 후, 렌더링 시에 현장과 유사하게 음장을 재현하는 시스템이다. 이를 구현하기 위해선 녹음된 신호로부터 잔향을 제거할 필요가 있다. 최근 심층신경망을 이용해 다채널 신호를 입력으로 받아 잔향을 제거하는 기법이 좋은 성능을 보이나, 크기 스펙트로그램만을 다루기에 왜곡된 위상으로 인해 복원한 신호의 품질이 떨어지는 단점이 있다. 본 연구에서는 그러한 문제를 완화하고자 시간 영역의 방향 특징을 입력으로 하는 엔드투엔드 모델을 사용할 것을 제안한다. 방향 특징은 삼차원 음향 인텐시티의 근사값으로 잔향의 양이나 직접파와 반사파의 방향을 판단하는 데에 유용한 정보이다. 훈련에 사용한 모델은 변형을 통해 보다 효율적인 학습을 가능케 하였으며 기존 모델 및 기법들과 비교하여 우수한 성능을 보임을 확인하였다.