서지주요정보
(A) Study on analysis and modeling of rate and distortion for Quadtree coding in High Efficiency Video Coding = HEVC 쿼드트리 부호화를 위한 율 및 왜곡에 대한 분석 및 모델링에 관한 연구
서명 / 저자 (A) Study on analysis and modeling of rate and distortion for Quadtree coding in High Efficiency Video Coding = HEVC 쿼드트리 부호화를 위한 율 및 왜곡에 대한 분석 및 모델링에 관한 연구 / Bum-Shik Lee.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023474

소장위치/청구기호

학술문화관(문화관) 보존서고

DICE 12003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For the rate and distortion models in the conventional codecs such as H.264/AVC where the basic coding unit is the macroblock of a fixed size in 16??16 pixels and the transform block sizes are fixed and small in 4??4 and 8??8 pixels, single probability model approaches have been popularly taken, which may fail to model the underlying statistical characteristics of different residues from variable block-sized coding. Recently, a next generation video compression standard, named as HEVC (High Efficiency Video Coding), which is being developed by the JCT-VC (Joint Collaborative Team for Video Coding) of ISO/IEC MPEG and ITU-T VCEG, has a significantly different coding feature compared to the conventional coding standards by adopting a flexible quadtree coding structure in which the coding unit (CU) and transform unit (TU) are hierarchically structured in a quadtree manner with various CU sizes (8??8 ?? 64??64) and TU sizes (4??4 ?? 32??32) of pixel blocks. Hence, the CU and TU structures of the current HEVC can flexibly adapt to the various types of images from small to high resolutions as well as from simple and to complex texture images. In this dissertation, new rate and distortion models for the quadtree-based HEVC codec are presented, which are based on Laplacian mixture distribution in different depth levels and coding types of CUs. A Laplacian mixture distribution for which its model parameters are estimated for each CU depth with negligibly low complexity is employed for distortion and rate models. Furthermore, based on the statistical observations, the high rate assumption for distortion estimation is applied to the intra-coded CU in order to avoid inaccurate estimation of model parameters for non-Laplacian cases. The proposed rate and distortion models based on the Laplacian mixture distribution are tested for HEVC Test Model (HM). The experimental results show that the proposed models achieve more precise estimations in rate and distortion than the conventional models based on single probability distributions. The proposed Laplacian mixture distribution based distortion models shows average 2.90% in normalized Root Mean Square Error (NRMSE) values, which outperforms the conventional single distribution based model which average 4% in NRMSE for distortion estimation. For rate estimation, the proposed Laplacian mixture distribution based rate model shows its superiority with average 8.79% in NRMSE value, compared to the conventional single distribution based model with average 25% in NRMSE. In addition, a no-reference PSNR (Peak-Signal-to-Noise-Ratio) method based on the proposed distortion model is studied. In accordance with the results in distortion modeling, the mixture Laplacian distribution based no-reference PSNR estimation method outperforms the conventional methods which are mostly based on single Laplacian- Gaussian- or Cauchy-based methods. The proposed no-reference PSNR estimation method yields Pearson correlation values ranging from 0.973 to 0.980 in prediction accuracies while the conventional methods shows the values ranging from 0.771 to 0.972. In addition, the proposed method achieves the minimum 0.52 and the maximum 0.91 RMSE values while the conventional method shows the values ranging from 0.71 to 1.65. From the experimental results, the proposed Laplacian mixture based no-reference PSNR estimation method can successfully be applied for video quality assessment in environment of mobile or internet video transmission.

율(Rate)-왜곡(Distortion) 모델은 율 제어, 화질 평가를 위한 왜곡 예측, 부호화 효율 향상을 위한 부호화기 최적화, 저 복잡도 부호화를 위한 매우 중요한 연구 분야이다. 일반적으로 율(R)은 부호화된 비디오 패킷의 비트의 수로 표현되며 왜곡(D)은 원 영상과 복원 영상간의 평균자승에러(Mean Square Errors, MSE)나 PSNR(Peak-Signal-to-Noise-Ratio)로 측정된다. 율-제어 응용에서는 부호화가 완료되기 이전에 율-왜곡 모델을 통하여 율 및 왜곡 정도를 예측하여 최소 왜곡으로 율-제어를 할 수 있도록 응용될 수 있다. 또한 무참조 왜곡 예측 용용에서는 왜곡 모델을 통하여 참조 영상을 사용하지 않고 왜곡 모델만으로 PSNR을 예측할 수 있다. 이 것은 복호화기 측의 모니터링 목적으로 응용될 수 있다. 율-왜곡 모델은 저 복잡도 부호화 분야에서도 응용될 수 있다. 복잡한 율-왜곡 최적화 (Rate-Distortion Optimization, RDO)과정 없이 율-왜곡 모델을 통해 예측한 정보를 이용하여 최적의 부호화 파라미터를 선택함으로써 율-왜곡 성능을 유지하면서 복잡도를 크게 줄일 수 있다. 이러한 다양한 응용 분야에 적용할 수 있기 때문에 율-왜곡 모델에 관한 많은 연구들이 진행되어 왔다. 연구 초기에는 고 비트율 응용에 적용이 가능한 율-왜곡 모델이 연구되었으나, 이 것은 입력 신호의 특성을 고려하지 않고 입력 신화가 해당 양자화 구간에서 균등 분포(uniform distribution)를 따른다고 가정하기 때문에, 저 비트율 부호화에서는 효율적이지 못하고 모델 정확도가 매우 감소하는 단점이 있다. MPEG-1, MPEG-2, H.264/AVC와 같은 비디오 표준 코덱이 개발되면서 해당 코덱을 위한 율-왜곡 모델이 많이 연구가 되었다. 모델 기반 율-왜곡 모델로서, 주로 신호가 라플라시안(Laplacian), 코시(Cauchy) 또는 가우시안(Gaussian) 확률분포를 따른다는 가정하에 제안되었다. 이러한 확률분포 기반 모델을 기존 코덱에서 비교적 높은 정확도를 보이며 많은 응용 연구들이 진행되었다. 그러나 이러한 확률 분포 기반 모델들은 비교적 단순한 부호화 구조를 갖는 기존 코덱에서는 비교적 높은 예측 정확도를 보이나, HEVC(High Efficiency Video Coding)와 같이 깊이가 큰 쿼드트리 부호화 구조와, 작은 크기의 변환 커널부터 큰 변환 커널까지 다양한 크기의 변환 구조를 가지는 코덱 구조에서는 그 정확도가 감소한다. 지금까지 HEVC와 같은 복잡한 부호화 구조를 갖는 코덱에 대한 율-왜곡 모델에 관한 연구가 진행된 바가 없으며, H.264/AVC 이후 차세대 고성능 코덱으로 널리 이용될 것으로 보이는 HEVC에 대한 본 연구는 처음으로 수행되는 연구이다. 본 학위 논문에서는 기존의 코덱과는 매우 상이한 구조를 가지며 현재 표준화가 진행중인 HEVC에 적합한 율-왜곡 모델에 관한 연구를 수행하였고, 제안된 왜곡 모델을 이용하여 무참조 PSNR 예측 방법을 제안하였다. 본 학위 논문에서는 기존의 확률 분포 기반 율-왜곡 모델의 한계점을 극복하기 위하여 HEVC의 쿼드트리 구조를 갖는 부호화 특성을 고려하여 율-왜곡 모델을 제안하였다. 먼저 (1) 정수변환 커널과 양자화 구조로부터 정확한 율-왜곡 모델을 얻기 위하여 H.264/AVC의 단일 변환 구조를 확장한 계층적 변환 구조 및 정수 변환 설계 원리를 기술하고 확장 및 계층적 변환 부호화 구조에서의 성능 분석을 수행하였다. (2) HEVC 부호화기를 이용하여 CU의 깊이에 따른 예측 잔차 신호의 특성을 픽셀 및 DCT 변환 영역에서 분석하였으며, CU 깊이에 따라 신호 특성이 큰 차이를 보이는 것을 통계적 분석을 통하여 파악하였다. (3) CU 깊이에 따른 신호 특성을 바탕으로 CU 깊이에 따른 라플라시안 혼합 확률 분포를 제안하였고, 이를 바탕으로 MSE기반 왜곡 모델, 엔트로피 기반 율 모델을 제안하였다. 제안 모델은 모델 파라미터 예측 시 일반적으로 혼합모델에 수반되는 클러스터링 알고리듬을 사용하지 않으므로 높은 복잡도를 요구하지 않고, 저 복잡도로 모델 파라미터를 예측할 수 있다. 또한 CU 깊이에 따른 통계 분석을 바탕으로 화면내 부호화 또는 화면간 부호화에서 CU의 깊이가 깊어질수록 왜곡 모델은 Laplacian 확률분포로 표현되지 않는 경우가 많기 때문에 고 비트율 가정을 통하여 간단한 형태의 점진적 D-Q 모델로 근사화할 수 있다. 율 모델의 경우 엔트로피 기반 모델을 간단한 형태의 모델로 간략화 하면 CU의 깊이에 따른 혼합확률 분포를 이용하여 표현할 수 있다. 제안된 모델은 기존의 단일 확률 분포 기반 모델에 비해 월등히 높은 예측 성능을 보이며, 특히 CU 깊이가 크고, 신호 특성이 CU 깊이에 따라 다양한 패턴을 보일 때 보다 높은 예측 성능을 보였다. 제안된 왜곡 모델은 정규화된 RMSE (Normalized Root Mean Square Error, NRMSE)로 측정하였을 때 평균 2.9%, 율 모델은 NRMSE가 평균 8.79%를 나타냈다. 이 것은 기존의 단일 확률 분포 기반 모델 보다 왜곡 모델의 경우 약 4%, 율 모델의 경우 약 25% 향상된 수치이다. (4) 제안된 왜곡 모델을 통하여, 무참조 PSNR 예측 방법에 대한 연구를 수행하였다. CU이 깊이에 따라 라플라시안 혼합 확률 분포의 모델 파라미터를 예측하고, 왜곡 모델을 통하여 PSNR을 예측하였다. 기존의 방법이 DCT의 주파수 위치 또는 DC와 AC를 구분하여 확률 분포 모델을 만들었던 것과는 달리 제안 방법은 CU의 깊이에 따라 만들어진 혼합 확률 분포를 이용하여 PSNR을 예측하였다. 또한 양자화된 계수가 모두 0인 CU 깊이에 대해서는 CU 깊이에 따른 변환 계수가 지수 함수의 특성을 따르는 특성을 이용하여 Exponential regression 방법을 이용하여 양자화된 계수가 모두 0인 CU 깊이에 대해 모델 파라미터 예측을 수행하였다. (3)의 결과와 마찬가지로 제안된 방법은 기존의 단일 확률 분포 기반 방법에 비하여 Pearson Correlation값이 최대 0.980으로 단일 확률 분포 기반 방법이 0.771부터 0.972값을 보이는 것에 비하여 매우 향상된 PSNR예측 성능을 보였다. 본 학위논문에서 제안한 율-왜곡 모델은 HEVC의 코덱 구조에 최초로 적용된 것이며, 복잡한 쿼드트리 구조를 갖는 CU 및 변환 구조에 적합하도록 만들어 졌다. 이 것은 율-제어, 저 복잡도 부호화 방법 등 향후 후속 연구에 유용한 정보로 활용될 수 있다.

서지기타정보

서지기타정보
청구기호 {DICE 12003
형태사항 x, 141 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이범식
지도교수의 영문표기 : Mun-Churl Kim
지도교수의 한글표기 : 김문철
수록잡지명 : "Modeling Rates and Distortions based on a Mixture of Laplacian Distributions for Inter-Predicted Residues in Quadtree Coding of HEVC". IEEE Signal Processing Letters, vol. 18, no. 10, pp. 571-574(2011)
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 128-134
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서