The audio super resolution is a task that inferences audio with high sampling rate from audio with low sampling rate. In this thesis, we interpret the audio super resolution task from two perspectives: wave form regression problem and spectrogram form bandwidth extension problem, and create new deep learning structures that can reflect its characteristics and apply it to the proposed model. And based on the fact that audio super resolution task is a seq2seq problem, we propose a new structure that can implicitly explain the attention mechanism. The proposed model will be compared with existing audio super resolution models by visual comparison using spectrogram and numerical comparison using SNR and LSD.
음성 데이터 초해상화는 낮은 샘플링 레이트의 음성 데이터로부터 높은 샘플링 레이트의 음성 데이터를 추론하는 작업이다. 본 논문에서는 음성 데이터 초해상화 작업을 파동 형태의 회귀 문제와 스펙트로그램 형태의 주파수 대역폭 확장의 두 가지 관점에서 해석하여, 그 특성들을 반영할 수 있는 새로운 딥러닝 구조를 만들어 제안 모델에 적용하려고 한다. 그리고 음성 데이터 초해상화가 seq2seq 문제라는 점에서 착안하여 기존의 어텐션 메커니즘을 내재적으로 설명할 수 있는 구조를 제안한다. 제안 모델과 기존에 연구된 음성 데이터 초해상화 모델들을 스펙트로그램을 이용한 시각적 비교와 SNR 값과 LSD 값을 이용한 수치적 비교의 두 가지 방법을 통해 성능을 비교할 것이다.