Recently, active research has been made on sparse representation of images and video for data compression. The transforms often used to compress images or video include DCT (discrete cosine transform) and Wavelet transforms. Since these transforms concentrate most of the energy of images into a small number of low frequency coefficients, the compression performance can be greatly increased. Recently, there have been studies to improve the compression performance by learning a transform or a dictionary so as to be more suitable for specific data. These studies enable a more sparse representation than the existing transforms for certain data. In this thesis, we study how to learn sparsifying transforms for directionally predicted pixel blocks of H.264/AVC and to compare them with the existing linear transform models. Furthermore, by interpreting the above linear transform models as a neural network with one layer, we extend them to nonlinear sparsifying transforms based on neural networks with multiple layers to obtain more sparsifying transforms. We compare the nonlinear sparsifying transforms with the linear sparsifying transforms in terms of compact representation capability.
최근 이미지나 비디오 압축에서 이미지를 적은 수의 요소 영상을 사용한 희소 표현 방법에 대한 연구가 활발하게 이루어지고 있다. 이미지나 비디오를 압축하기 위해 주로 사용해 온 변환은 주로 DCT, Wavelet 변환 등이 있는데, 이러한 변환들은 일반적인 이미지나 비디오에 있어서 작은 변환 계수 값이 낮은 주파수 영역에 주로 존재하도록 하기 때문에, 압축 성능을 크게 높일 수 있다. 그런데 최근에는 특정한 데이터에 더 적합하도록 변환 또는 요소 영상 사전을 학습시켜서, 압축 성능을 높이는 연구가 이루어지고 있다. 이러한 연구에서는 특정한 데이터에 대해 기존의 변환들보다 더 희소 표현을 가능하게 할 수 있다. 본 학위논문에서는 최근에 희소 표현이 가능한 변환들을 학습하는 방법에 대해 고찰하고, 이를 H.264/AVC의 화면내 예측 잔차 신호에 대해 변환을 적용하기 위해 9개의 예측 방향에 따라 각각의 선형 희소 변환 모델을 학습시켜서 기존의 선형 변환 방법과의 성능 비교를 수행한다. 그리고 더 나아가 이러한 선형 변환 모델을 한 개의 층이 존재하는 신경망으로 해석하고, 여러 개의 은닉층을 가지는 일반화된 신경망으로 확장하여 비선형 희소변환을 학습하여 희소 표현의 효율성을 더 개선하고자 한다.