서지주요정보
(A) study on transformer-based image compression framework of spatial scalability for arbitrary scaling applications = 임의 해상도를 지원하는 트랜스포머 기반 해상도 스케일러블 이미지 압축 프레임워크 연구
서명 / 저자 (A) study on transformer-based image compression framework of spatial scalability for arbitrary scaling applications = 임의 해상도를 지원하는 트랜스포머 기반 해상도 스케일러블 이미지 압축 프레임워크 연구 / Jongmin Park.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039855

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22124

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In recent years, the difference in device quality such as the resolution or computing performance among users has increased in multimedia transmission environment. Regarding this, the study of scalable image compression has been considered an essential technique that encodes multiple quality images for each user environment into a shared bitstream. Recently, the end-to-end scalable image compression method based on convolutional neural network(CNN) architecture has been presented for efficient optimization process and enhanced RD performance than the existing methods which adopt the traditional compression standards. However, the CNN architecture based scalable image compression method has two critical limitations in terms of functionality and performance. First, it is impossible to generate any desired scaled images with only CNN-based scalable image compression architecture because the CNN SR module can upscale the input images to only discrete ratios. Second, the image compression model cannot consider the global relationship among all pixels due to its limited receptive field depending on the kernel size of CNN layers. Thus RD performance may be limited in the image compression process. To overcome these two limitations, we propose a novel spatial scalable image compression framework that can generate any arbitrarily scaled outputs with high image quality regardless of the number of outputs and even the resolution of outputs in this paper. In the proposed framework, we use the implicit representation function, which represents the pixel value of images to the continuous function, so it is possible to control the output of scaled images to any target resolution. We additionally adopt a novel Transformer-CNN hybrid architecture that have recently shown in the field of computer vision to enhance the RD performance of the image compression model in our proposed framework. The proposed transformer architecture, Multi Window size RSTB(MW-RSTB), consists of multiple Residual Swin Transformer Blocks, which have different window sizes for local window self-attention layers. By adding the proposed transformer architecture into the existing CNN-based image compression model, the proposed architecture can learn the relationship with the overall pixels of the images. In this paper, we first attempt the new approach for arbitrarily scalable image compression to any continuous scale, which has never been studied yet in the existing deep learning-based scalable image compression area. Also, we demonstrate that our proposed framework can generate consistent image quality for any scaled output images. Furthermore, extensive experiments show that our framework generates better image quality outputs than SHVC, a scalable extension of HEVC, and a state-of-the-art CNN-based scalable image compression method by +1.30dB and +0.99dB in PSNR, respectively, by using similar bitrate in the discrete scale scenario.

최근 멀티미디어 송수신 환경은 사용자 단말간 해상도 및 컴퓨팅 성능 간에 차이가 점점 증가하고 있다. 이러한 송수신 상황을 고려하여, 각 사용자 환경에 해당하는 여러 품질의 영상을 하나의 비트스트림으로 압축하는 스케일러블 이미지 압축 기법이 중요한 기술로 요구되고 있다. 최근 합성곱 신경망을 활용한 딥러닝 기반 이미지 압축 모델을 응용한 스케일러블 이미지 압축 프레임워크가 제안되면서 기존 전통적인 이미지 압축 표준을 활용한 기법보다 신속하게 최적화를 수행할 수 있으면서도 비트 효율성 측면에서 더 높은 성능을 보인 바 있다. 그러나 합성곱 신경망을 통해 스케일러블 이미지 압축을 수행하게 되면 기능과 성능적인 측면에서 다음과 같은 한계를 가지고 있다. 첫째, 합성곱 신경망을 이용해서 이미지의 해상도를 변환하면 이산화된 특정 비율로만 조절할 수 있기 때문에 모든 원하는 해상도에 해당하는 스케일러블 이미지 압축 결과를 생성하지 못한다. 둘째, 합성곱 연산만을 이용해서 이미지 압축 네트워크를 설계하면 한정된 수용 영역에 대해서 연산을 실시하기 때문에 영상 전체의 특성을 고려하면서 이미지 압축을 진행하지 못한다. 이로 인해 이미지 압축 네트워크가 제한된 비트 효율성을 가지게 된다. 상술한 두 가지 한계를 극복하기 위해 본 논문에서는 임의 스케일로 변환할 수 있는 트랜스포머 기반 스케일러블 이미지 압축 프레임워크를 제안한다. 제안 구조에서는 이미지의 화소값을 연속적인 함수로 표현하는 함축 표현 기법을 활용하여, 스케일러블 코덱 적용 시에 입력 이미지의 크기를 원하는 임의의 비율로 조절할 수 있도록 한다. 제안 구조는 이미지 압축 네트워크의 성능을 향상시키기 위해 최근 컴퓨터 비전 분야에서 상당한 성과를 보이고 있는 트랜스포머 구조를 합성곱 신경망과 혼합하여 구성된다. 제안된 트랜스포머-합성곱 혼합 구조는 서로 다른 윈도우 크기를 가진 로컬 윈도우 자기-어텐션 모듈로 이루어진다. 해당 어텐션 모듈을 이미지 압축 네트워크의 각 레이어에 추가하여 특성 맵이 영상 전반적인 영역에 대한 관계성을 학습할 수 있도록 하였다. 이러한 방법을 통해 제안한 방법은 기존 딥러닝 기반 스케일러블 코덱 연구에서 전혀 다루지 않았던 임의 스케일 변환 가능성이라는 새로운 기능에 대한 접근을 시도하였으며, 일관된 성능의 임의 스케일러블 이미지 압축 결과를 도출하였다. 또한 이산화된 비율에 대해서도 압축 표준인 HEVC를 활용한 스케일러블 코덱인 SHVC 및 기존 최고 성능의 스케일러블 이미지 압축 기법보다 유사한 비트량 대비 각각 1.30dB, 0.99dB 향상된 스케일러블 이미지 생성 결과를 보였다.

서지기타정보

서지기타정보
청구기호 {MEE 22124
형태사항 vi, 50 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박종민
지도교수의 영문표기 : Munchurl Kim
지도교수의 한글표기 : 김문철
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 43-48
주제 Scalable coding
Image compression
Transformer
Deep learning
스케일러블 코딩
이미지 압축
트랜스포머
딥러닝
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서