서지주요정보
Generation of a bird view image from a pixel-level frontal view image by using a generative adversarial network = GAN을 이용하여 픽셀단위 전면영상에서 상면영상을 생성하는 방법연구
서명 / 저자 Generation of a bird view image from a pixel-level frontal view image by using a generative adversarial network = GAN을 이용하여 픽셀단위 전면영상에서 상면영상을 생성하는 방법연구 / Tianru Zhou.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036658

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20170

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Understanding of traffic scenes robustly as a basis of executing driving strategies and planning routes is a cornerstone for autonomous driving, where a bird view is an essential component to create panoramas of surroundings. Since there is a large gap between bird views and other views, such as the front view, the task of synthesizing the related bird views is quite challenging. Generative adversarial networks (GAN) developed rapidly in recent years have been utilized a minimax game between a generator module and a discriminator module for image conversion and synthesis. Then, this dissertation applies a new framework for the synthesis of bird view for the modern autonomous driving: Firstly, inspired by correspondence between pixels, this dissertation applies a pixel level GAN to achieve one to one generation from a front view to the related bird view. In the generator module, unlike the original GAN, which uses random vectors as input, the proposed method uses an encoder and a decoder. This method directly inputs the image as the source domain, retains the semantic characteristics and is constructed by the convolutional neural network. In the discriminator module, based on the real/fake discriminator, the proposed network add another discriminator, which is called identification discriminator to improve the correlation between the source domain and the target domain, avoiding the loss of identification information. Secondly, we use a dataset which is similar with the autonomous driving scene in the real world from Grand Theft Auto V (GTA5) video game. The camera automatically toggles between front view and bird view at each time step, then packs the paired images with low similarity in the same frame as the training set and test set. In order to output the related bird view, a method for fine-tuning of the network is discussed to design layers, parameters and reasonable epochs of network. Additionally, various front views from more complex scenes are applied for testing, According to the parameter setting, epoch setting and architecture optimization, bird view is generated respectively. Finally, an experimental evaluation is extended based on LPIPS algorithm which contains two modules, one is for calculating distance between image patches while another is for the perceptual loss calculation. The evaluation is combined with the LPIPS algorithm to calculate the difference score between the synthetic image and the real bird view. Compared with other methods, the error is reduced by 40.96% on average. The parallax image is also visualized to build the distance map, then a comprehensive analysis of the pixel level generative adversarial network can be achieved based on the score and the distance map objectively. In summary, the proposed network neither uses complex geometric transformations nor avoids the introduction of multiple intermediate views, which can be applied to the field of autonomous driving to realize the transformation from a front view into a high-resolution bird view under the road environment.

주행 전략 및 계획 경로 실행의 기초로서 주변 교통상황을 철저하게 이해하는 것이 자율주행의 기본이 되는데, 여기서 조감도는 주변 환경의 파노라마를 만드는데 필수적인 요소이다. 그러나, 조감도 및 다른 감도(예 : 전감도) 사이에는 차이가 크기 때문에, 이를 합성하는 작업은 상당히 어려운 과제이다. GAN(Generative adversarial networks)가 급속도로 발전하면서 이미지 변환과 합성 등에 응용되고 있다. 따라서, 본 논문은 다음과 같이 현대적인 자율주행을 바탕으로 새로운 framework를 적용하는 조감도 생성방법을 제시하였다. 먼저, pixel 간의 관련성을 고려하였고 pixel level GAN를 적용하여 1대1로 전감도에 대한 조감도를 성공적으로 생성하였다. Generator module에서는 랜덤 벡터를 사용하는 원래의 GAN과는 달리, 본 연구에서는 encoder 및 decoder를 적용한 generator를 구성하는 방법을 제시하였다. 이러한 방법은 이미지를 source domain으로 직접 입력하며, CNN을 이용한 semantic의 특징을 구성한다. Discriminator module에서는 real/fake discriminator를 기반에 identification discriminator 추가하는 방법을 통하여, source domain 및 target domain 사이의 상관관계를 개선한다. 실험용 dataset은 GTA5 라는 게임 속 현실과 비슷한 운전환경으로 선택하였다. 운전 중의 자동차 전감도 및 조감도를 동시에 한쌍으로 저장하였고, 이후에 training set과 test set으로 구분하였다. 본 연구는 Layers 설계, Hyper parameters 선정 및 Training 시간 등 최적화 하고 출력한 조감도를 최선의 방향으로 개선하였다. 복잡한 교통상황에서도 조감도는 성공적으로 생성되었다. 마지막으로, 본 연구는 LPIPS 알고니즘을 적용하여 실험평가 하였다. 생성한 조감도 및 실제 조감도는 차이 값(Score)으로 평가하였고, 이는 다른 방법과 대비하여 평균적으로 40.96%의 오차가 감소되었다. 전반적으로, 제시한 방법은 복잡한 모양변화 또는 중간 간접 감도 필요없이 전감도만 이용하여 관련한 고정밀도 조감도를 생성하는 방법은 자율주행에 적용할 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 20170
형태사항 iii, 35 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 주천여
지도교수의 영문표기 : Chang-Hee Lee
지도교수의 한글표기 : 이창희
수록잡지명 : "Pixel-Level Bird View Image Generation from Front View by Using a Generative Adversarial Network". 2020 6th International Conference on Control, Automation and Robotics (ICCAR)., pp. 683-689 IEEE(2020)
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 31-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서