서지주요정보
(A) study on particle filtering based prediction for rates and distortions of video coding and an application to rate control = 파티클 필터링 기반 비디오 부호화의 율 및 왜곡 예측과 율 제어 응용에 관한 연구
서명 / 저자 (A) study on particle filtering based prediction for rates and distortions of video coding and an application to rate control = 파티클 필터링 기반 비디오 부호화의 율 및 왜곡 예측과 율 제어 응용에 관한 연구 / Myung Han Hyun.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037630

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 21026

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

An increased large number of block partition levels, enlarged transform kernel sizes and transforms of various kernel types adopted in the Versatile video coding TestModel (VTM) of MPEG and VCEG prohibit from precisely modeling the resulting various distributions of transform coefficient (TC) values, thus making the rate and distortion (R/D) estimation problems more challenging. The conventional R/D estimation methods first estimate the model parameters of a predefined probability density function (pdf) of TC values in Coding Tree Unit (CTU) partition depth levels or TC channels for the next frame. Then, R/D values are computed based on the estimated pdf for given quantization step sizes. This often leads to imprecise R/D estimation due to the mismatch between the true parameter of the pdf in the next frame and the parameter of the pdf estimated from the current and past frames. Furthermore, R/D estimation becomes more challenging for inter-predictive coding due to the lack of residues since prediction technologies have been greatly advanced. Rather, R/D estimation for intra-predictive coding is still capable with performing based on the modeling of TC distributions. In this dissertation, we propose a new R/D estimation method for video coding with deep block partitioning structures. In our proposed R/D prediction, we adopt a particle filtering based prediction (PFP) to precisely predict intermediate R/D estimates for the next frame in a stochastic manner, which helps increasing the prediction accuracy of fast changing R/D values. Then, based on the intermediate R/D estimates by PFP, we infer an optimal model parameter of the TC’s pdf via convex optimization. We found that the proposed method brings about more stable R/D estimation performance thanks to both the improved prediction accuracy using the PFP for abrupt changes in true R/D values and the precise estimation of the optimal model parameter. Based on our R/D estimation method by PFP, we extend our work to a frame-level constant bit-rate (CBR) control method using recursive Bayesian estimation (RBE) for Versatile Video Coding (VVC). The VVC adopts more complex coding structures with deeper depths and various block partitions (sizes and shapes) of Coding Unit (CU), compared to its former High Efficiency Video Coding (HEVC), thus leading to yield much improved coding efficiency. So, the conventional R-Q (rate-quantization) models such as a Laplacian mixture model (LMM) become inappropriate to be used for rate control (RC) due to two reasons: (i) the residues of various block-size transforms of CU partition blocks with deeper depths; (ii) less amounts of residues (texture information) due to improved motion prediction. So, it is a difficult problem to precisely estimate the texture bits occurred in various CU partition depths with various-sized block transforms. It is also challengeable to predict the non-texture bits such as motion, block partition and coding mode information etc. due to an increased number of various coding tools (modes) adopted for the improvement of coding efficiency. Therefore, it is worthwhile to estimate the total bits of texture and non-texture bits at the same time for each frame to be encoded. For this, an R-λ model has handled the total texture and non-texture bits at a time for RC and has worked reasonably well in HEVC. Nevertheless, if the rate estimation is inaccurately performed, that is, the R and λ values for a current frame cannot be linearly modeled with their respective values in the previous frames, the resulting RC performance is degraded. In our work, we adopt the RBE to precisely estimate the rates and then to allocate target bits based on the changes in the distortions of the previously coded frames, thus considering the rates and distortions simultaneously. Experimental results show that our proposed R/D estimation method significantly reduces the normalized root mean square error (NRMSE) from average 3.17 to 0.79 (74.90% reduction) for rate and from average 2.32 to 0.82 (64.61% reduction) for distortion, compared to the state-of-the art method. Furthermore, our RC method outperforms the RC of VTM-5.0 in terms of NRMSE with average 13.25% improvement, and maintains higher visual quality consistency in terms of standard deviation of PSNR by 23.31% improvement for All Intra (AI), average 27.38% and 9.10% for Low Delay (LD), and average 40.46% and 19.70% for Random Access (RA), respectively, compared to the default RC method of the original VTM-5.0.

최근 비디오 표준화 그룹 (MPEG and VCEG)에서 표준화 재정중인 영상압축 표준인 Versatile Video Coding (VVC)에서는 기존의 영상압축 표준인 High Efficiency Video Coding (HEVC)과 대비하여 다양한 심층 블록 분할 구조 (multi-type tree) 및 확장된 크기의 다종 변환 커널 (multi-type transform kernels)이 채택 사용된다. 이로 인한 잔차신호 (residue signal)의 감소는 변환계수 (transform coefficient, TC)를 이용한 확률분포함수(probability density function, pdf)의 수학적인 모델링을 어렵게 하고, 또한 심층 블록 분할구조에 의한 다양한 코딩 블록의 출현은 각 코딩블록의 pdf 모형 매개변수 (model parameter)를 각각 추정해야 하는 복잡도가 발생하였다. 더욱이, 율/왜곡 추정에 사용된 기존의 단일 라플리시안 모델 (single Laplacian model, SLM) 및 혼합 라플리시안 모델 (Laplacian mixture model, LMM) 에서는 현재 프레임 코딩 트리 유닛 (Coding Tree Unit, CTU)의 깊이 영역에서 취합 된 TC 또는 동일 위치에서 취합 된 TC를 이용하여 기 가정한 pdf의 model parameter를 추정하고, 이것을 다음 프레임의 율/왜곡 예측의 변수로 사용한다. 즉, 추정된 모형 매개변수와 주어진 양자화 스텝 크기 (quantization step size)를 이용하여 율/왜곡 값을 계산한다. 이러한 기존의 율/왜곡 추정 방식은 과거 및 현재프레임의 모델 파라미터 값을 이용한 조합 값으로 다음 프레임의 pdf 모델 파라미터 값을 예측하기 때문에, 예측 파라미터 값과 실제 파라미터 값 간의 불일치로 인하여 율/왜곡 추정치가 부정확해지는 경우가 발생한다. 아울러, VVC에서 새롭게 채택 된 다양한 부호화 기술로 인하여 특히, 화면간 예측 부호화 (inter-predictive coding)의 경우 잔차신호의 결핍이 발생한다. 이는 모델 파라미터 예측을 통한 기존의 율/왜곡 추정 방법 (e.g. SLM or LMM) 사용에 많은 제약 사항이 발생하여 정확한 율/왜곡 예측이 더 어려워 지고 있다. 반면에, 화면내 예측 부호화 (intra-predictive coding)의 경우 화면간 예측 부호화보다 잔차신호가 상대적으로 많이 발생하므로 변환계수의 모형화를 통한 율/왜곡 추정이 여전히 유효하다. 본 학위 논문에서는 파티클 필터링 기반의 예측 (particle filtering based prediction, PFP)을 이용한 심층 블록 분할 구조 비디오 부호화의 율 및 왜곡 추정 방법을 제안한다. 제안하는 율/왜곡 예측 방법은, 추정하려는 율 또는 왜곡 값을 미지 pdf의 확률변수 값으로 가정하고 파티클 필터링을 이용하여 특정한 율 또는 왜곡 값을 추정한다. 이를 위하여, 파티클의 pdf 추정을 위한 재귀 비선형 추정 기법 (recursive nonlinear estimation on the pdf of particles) 및 베이지안 이론 (Bayesian theorem)이 적용 되었고, 실제 구현을 위하여 연속 중요 재추출 알고리즘 (sequential importance resampling algorithm)이 사용되었다. 이를 통하여서, 급격히 변화화는 율/왜곡 값의 예측성능을 향상시켜 다음 프레임의 실제 율/왜곡 값을 정밀하게 예측하였다. 또한 제안하는 PFP를 이용하여 주어진 양자화 파라미터 (quantization parameter, QP) 값으로 중간 율/왜곡 추정치 (intermediate R/D estimates)를 얻고, 중간 율/왜곡 추정치를 바탕으로 최적 모형 파라미터 (optimal model parameter) 값을 얻었다. 궁극적으로 PFP를 통하여 얻어진 최적 모형 파라미터를 통하여 다음 프레임의 율/왜곡 값을 임의의 QP 값으로 계산할 수 있다. 또한, 본 학위 논문에서는 제안하는 PFP 기반 율/왜곡 추정방법을 VVC 영상압축 표준 참조 모델(VTM-5.0)의 화면단위 고정 율 제어 기법 (rate control, RC)에 적용하였다. VVC 영상압축 표준에서는 HEVC 영상압축 표준과 대비하여 코딩 유닛 (Coding Unit, CU)의 깊이가 깊어지고, 형태와 크기가 다양해지므로, 복잡도가 커지는 대신 코딩효율을 증가할 수 있었다. 따라서, 기존의 LMM과 같은 R-Q (Rate-quantization) 모델은 다음과 같은 이유로 인해 VVC의 RC에 사용하기가 어렵다. (i) 더욱 깊어진 CU 분할에서 발행한 다양한 잔차신호 증가; (ii) 향상 된 움직임 예측으로 인한 질감 정보 (texture information) 잔차신호 감소. 따라서, 다양한 크기와 깊어진 CU의 블록에서 발생하는 질감비트를 정확하게 예측하는 것이 어려워졌다. 또한, 부호화 효율을 증가시키기 위해 적용된 다양한 코딩 기법의 증가로 인해, 모션, 모드, 블록분할 정보 등과 같은 비질감 정보 표현용 비트를 예측하는 것 또한 어려워졌다. 이에, 질감 및 비질감 정보 비트를 동시에 예측하는 것이 효율적이다. 이를 위하여 HEVC 영상압축 표준화 참조 모델에 사용된 R-λ 모델은 질감 및 비질감 비트를 한 번에 예측 처리하여 RC에 적용하였고, 그 성능을 입증하였다. 그럼에도 불구하고, R 및 λ의 값들이 이전 프레임의 값들에서 선형예측이 안될 경우 율 예측 (rate estimation)이 부정확하여 RC 성능이 떨어지게 된다. 따라서 본 제안의 율 제어는 PFP를 이용하여 율을 보다 정확하게 예측하고, 이전 프레임에서 얻은 왜곡 값들의 변화를 고려하여 목표 비트 (target bit)를 할당하는 즉, 율 및 왜곡을 동시에 고려하여 RC 성능을 효율적으로 증가시키는 방법이다. 실험결과에서 알 수 있듯이, 본 논문의 율 및 왜곡 추정 방법 (R/D estimation method)을 VTM-5.0에 적용하여 기존 방법 (LMM)과 비교했을 시, 정규평균제곱근오차 (normalized root mean square error, NRMSE) 값은 율에 대하여는 평균 3.17 에서 0.79로, 왜곡에 대하여는 평균 2.32에서 0.82로 오차 값이 줄어 들어 예측 성능이 향상됨을 확인하였고, 이는 각각 74.90%, 64.61%의 오차 감소임을 확인하였다. 또한, 본 논문의 율 제어 (RC) 기법을 VTM-5.0 기본 율 제어 방법 (default RC method of the original VTM-5.0)과 성능을 비교하였을 시에, All Intra (AI) 환경 (configuration)에서는 NRMSE 값에 대하여 평균 13.25%, PSNR 표준편차 값에 대하여 23.31% 향상되었으며, Low Delay (LD) 에서는 각각 27.38%, 9.10%, Random Access (RA) 에서는 각각 40.46%, 19.70% 향상됨을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 21026
형태사항 viii, 134 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 현명한
지도교수의 영문표기 : Munchurl Kim
지도교수의 한글표기 : 김문철
수록잡지명 : "A Novel Rate and Distortion Estimation Method using Particle Filtering based Prediction for Intra-Predictive Coding of Deep Block Partitioning Structures". IEEE Transactions on Circuits Systems and Video Technology (Early Access), pp. 1-16(2020)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 124-128
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서