Several video coding standards have been developed for many applications. Commonly, these standards have adopted the hybrid block-based video coding scheme that transforms the residual block generated as the difference between the original and spatially/temporally predicted block. In order to reduce the amount of bits, many researchers focused on the intra/inter-frame prediction step and then these standards have provided various prediction methods. On the other hand, most standards have used the discrete cosine transform (DCT), known to be near optimal for original images, to transform prediction errors. Since the statistical characteristics of prediction errors are quite different from those of original images, a more suitable transform for prediction errors has to be devised.
In this dissertation, we propose a new architecture of transform coding for Inter-frame Prediction Error (IPE) signal. In order to develop the system, we first derive a new statistical model which changes with each input IPE block adaptively. The model is based on assumptions that follow a first-order stationary Markov process in time domain and approximate the pixel-wisely unknown motion fluctuation with some physical motion models. We then devise a new transform based on the statistical modeling, which has no side information to be sent to the decoder. In addition, in order to reduce the computation time, we present a modified version for accelerating the transform using rank-one modification series. From the observation that the optimal transform of IPE block referencing a nearly uniform block is in fact identical to the Karhunen-L$\dot{o}$eve transform (KLT) of natural images, we further reduce the computational complexity using DCT for the IPE blocks. Experiments on well-known image sequences confirm that our proposed transform can improve the performance of transform coding significantly.
많은 동영상 부호화 표준 기법들이 다양한 응용분야를 위해 개발되어 왔다. 이들 부호화 표준들은 공통적으로 입력 블록과 공간적/시간적 방향으로의 예측 블록 간의 오차 신호를 변환 부호화하는 기법을 채택하여 왔다. 이에 영상 압축률을 높이기 위해 화면내/화면간 예측 기법들에 대한 많은 연구들이 진행되어 왔고, 이 부호화 표준들은 다양한 예측 기법들을 채택하였다. 반면, 대부분의 부호화 표준들은 원영상 신호에 최적으로 알려진 이산 여현 변환을 여전히 예측 오차 신호에도 적용하고 있다. 하지만, 예측 오차 신호의 통계적 특성은 원영상 신호와 매우 다르기 때문에, 예측 오차 신호에 좀 더 적합한 변환 기법을 고안할 필요성이 있다.
이 논문에서, 우리는 화면간 예측 오차 신호를 위한 새로운 변환 부호화 구조를 제안한다. 이 시스템을 개발하기 위해서, 우리는 먼저 입력되는 각 화면간 예측 오차 블록에 따라 적응적으로 변화하는 새로운 통계적 모델을 제시한다. 이 모델은 시간축으로 인접한 화소값들이 1차 마코프 프로세스를 따른다는 가정과 현재 블록 내 한 위치에 대해 블록단위 움직임 보상된 위치와 정확히 대응되는 위치 간의 관계가 잘 알려진 움직임 모델들로 근사화될 수 있다는 가정에 기반하여 유도된다. 다음, 우리는 이 통계적 모델링에 기반하여 참조블록의 내용에 따라 적응적으로 변환 기저를 생성하는 새로운 변환 기법을 고안한다. 추가로, 계산 시간을 줄이기 위해, 우리는 제안한 모델의 특성으로부터 랭크-1 수정 시리즈를 사용하여 제안한 변환 기법을 고속 처리할 수 있는 알고리즘을 제시한다. 또한 거의 평탄한 블록을 참조하는 화면간 예측 오차 블록의 경우 최적의 변환이 사실상 원영상 신호에 대한 카루넨 루베 변환과 같다는 발견으로부터, 우리는 그와 같은 입력 블록에 대해 이산 여현 변환을 수행함으로써 계산의 복잡도를 더욱 줄일 수 있다. 다양한 영상열을 가지고 실험한 결과 우리가 제안하는 변환 기법이 변환 부호화의 성능을 상당히 개선할 수 있음을 확인할 수 있다.