Most modern neural vocoders generate a waveform from a mel-spectrogram, one of the acoustic features. Mel-spectrogram is information about the only magnitude, not phase constant. In other words, all mel-spectrograms obtained from x_ϕ ̅ are the same for all ϕ, when x_ϕ is phase transform by ϕ from the waveform x. Conversely, a neural vocoder that generates a waveform with only mel-spectrogram as input is confused in training because x_ϕ can be ground-truth for all ϕ. In this paper, we propose a universal vocoder consisting of a stage to avoid confusion by fixing ϕ to ϕ ̅ to guarantee the uniqueness (x_ϕ ̅ ) of ground-truth, and a stage to generate a full-band waveform according to the fixed ϕ ̅. Each stage is named phase synchronizer and waveform upsampler. The proposed neural vocoder HiPhi-GAN solves all the existing problems: slow inference speed, lousy audio quality at mid-high-band, and frequent phasing errors.
현대의 대부분 신경망 보코더는 음향적 특징 중 하나인 mel-spectrogram으로부터 파형을 생성한다. Mel-spectrogram은 위상 상수와 관련 없는 세기에 대한 정보이므로, x_ϕ가 파형 x에서 ϕ만큼 위상 변환한 값일 때, 실수 ϕ에 대해 x_ϕ에 대응하는 mel-spectrogram은 동일하다. 반대로 생각하면, mel-spectrogram만 입력 받아 파형을 생성하는 신경망 보코더는 실수 ϕ에 대한 모든 x_ϕ가 ground-truth일 수 있기 때문에 학습 단계에서 혼동한다. 본 논문에서는 ground-truth의 유일성(x_ϕ ̅ )을 보장하기 위해 ϕ를 ϕ ̅로 고정하여 혼동을 피하기 위한 단계와 고정된 ϕ ̅에 따라 전대역 파형을 생성하는 단계로 구성된 범용 보코더를 제안하고, 각 단계를 위상 동기화기 및 파형 업샘플러로 명명한다. 제안된 신경 보코더 HiPhi-GAN은 느린 추론 속도, 중고주파대역에서의 열악한 오디오 품질, 빈번한 위상 오류와 같은 기존 문제를 모두 해결한다.