서지주요정보
High-level scene understanding with relational and linguistic priors = 관계 및 언어적 사전 지식을 이용한 장면 이해
서명 / 저자 High-level scene understanding with relational and linguistic priors = 관계 및 언어적 사전 지식을 이용한 장면 이해 / Dong-Jin Kim.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037877

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 21084

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

High-level scene understanding is a task to describe the content in a scene with a natural sentence, which can provide informative prior knowledge for extensive practical vision & language applications, such as posting social media, language-based image search, video summarization, navigation, vehicle control, and helping visually impaired people. One of the fundamental challenges in high-level scene understanding, especially in image captioning, is the low diversity of the captions generated from the models, which is the main issue in this dissertation. In this dissertation, we explore several possible factors that harm the diversity of the high-level scene understanding, such as data bias and lack of data. First, we introduce the novel concept of explicitly leveraging the co-occurrence among words for visual relation classes to address the bias problem in the training dataset. We name this prior knowledge as the action co-occurrence priors. We also propose two orthogonal ways to exploit action co-occurrence priors, namely through a proposed hierarchical architecture and visual relationship label expansion via knowledge distillation. The resulting model is consistently advantageous compared to previous state-of-the-art techniques. While traditional works mostly focused on the network architecture, the proposed co-occurrence priors can be easily obtained and can be utilized with negligible overhead while improving performance. Next, we find the performance improvements from the existing methods to improve the diversity of high-level scene understanding tasks are still somewhat limited. Therefore, we tackle the fundamental problem of high-level scene understanding tasks themselves by devising a novel image captioning framework. We introduce a novel dense relational image captioning task, a new image captioning task that generates multiple captions grounded to relational information between objects in an image. This novel image captioning framework can provide significantly dense, diverse, rich, and informative image representation. For a dataset for the new task, we also propose a technique to leverage existing visual relationship detection (VRD) labels and visual attribute labels to automatically synthesis relational captioning labels, which significantly reduced the efforts to construct our “Relational Captioning dataset.” Moreover, to effectively learn the relational captions, we propose the multi-task triple-stream network (MTTSNet) by leveraging the part-of-speech (POS) as prior knowledge to guide the correct word in a caption. We introduce several applications of our framework as an application, including “caption graph” generation and sentence-based image region-pair retrieval tasks. Moreover, constructing human-labeled datasets for high-level scene understanding frameworks is hugely laborious and time-consuming. In contrast to manually annotating all the training samples, collecting unpaired images and captions separately from the web is immensely easier. We propose a novel framework for training an image captioner with the unpaired image-caption data and a small amount of paired data. We also devise a new semi-supervised learning approach by the novel usage of the GAN discriminator. We theoretically and empirically show the effectiveness of our method in various challenging image captioning setups, including our scarcely-paired COCO dataset, compared to strong competing methods.

높은 수준의 장면 이해란 장면의 내용을 자연스러운 언어로 표현하는 작업을 말하며, 이러한 작업은 SNS 작성, 문장 기반 이미지 검색, 내비게이션, 차량 제어, 시각 장애인 보조 등 다양한 활용 분야를 위한 사전 지식을 제공할 수 있다. 높은 수준의 장면 이해, 특히 이미지 캡션 생성에서 근본적인 문제 중 하나는 모델에서 생성된 캡션의 다양성이 낮다는 것인데, 이것이 본 논문의 핵심적인 주제이다. 본 논문에서는 데이터 편향 및 데이터 부족과 같이 높은 수준의 장면 이해의 다양성을 낮추는 몇 가지 가능한 요인들을 탐구한다. 첫째로, 학습 데이터 편향 문제를 해결하기 위해 시각적 관계 클래스에 대한 단어 간의 동시 발생을 직접적으로 활용한 새로운 사전 지식을 도입하고, action co-occurrence prior라 이름 짓는다. 또한 계층적 아키텍처와 지식 증류를 통한 시각적 관계 라벨 확장을 통해 action co-occurrence prior를 활용하는 두 가지 서로 다른 방법을 제안한다. 그 결과 기존의 최신 기술에 비해 꾸준한 성능 향상을 확인한다. 기존의 방법론들은 대부분 네트워크 아키텍처에 중점을 두었던 반면, 제안된 action co-occurrence prior는 쉽게 얻을 수 있으며, 오버헤드가 거의 추가되지 않고도 뚜렷한 성능 향상을 해준다. 다음으로, 본 논문에서는 높은 수준의 장면 이해 작업의 다양성을 향상하는 기존 방법론들의 성능 향상이 다소 제한적임을 보인다. 따라서 본 논문에서는 새로운 이미지 캡션 생성 프레임워크를 고안하여 높은 수준의 장면 이해 작업 자체의 근본적인 문제를 해결한다. 본 논문에서는 이미지에서 개체 간의 관계 정보에 기반을 둔 여러 개의 캡션을 생성하는 새로운 이미지 캡션 생성 작업인 dense relational captioning을 도입한다. 이 새로운 이미지 캡션 생성 프레임워크는 매우 조밀하고 다양하며 풍부하고 유익한 이미지 표현을 제공할 수 있다. 이런 새로운 작업을 위한 데이터셋의 경우, 기존 시각적 관계 레이블 및 시각적 속성 레이블을 활용하여 relational caption 레이블을 자동으로 합성하는 기술을 제안, relational captioning 데이터셋을 구성하는 노력을 크게 줄인다. 또한, 관계형 캡션을 효과적으로 학습하기 위해 캡션에서 올바른 단어를 안내하는 사전 지식으로 품사 (Part-of-Speech)를 활용하여 Multi-task Triple-Stream Network (MTTSNet)을 제안한다. 그리고 "caption graph" 생성 및 문장 기반 이미지 영역 쌍 검색 작업을 포함하여, 제안 된 프레임워크의 여러 애플리케이션을 소개한다. 마지막으로, 본 논문에서는 높은 수준의 장면 이해 프레임워크를 위해 사람이 라벨링 한 데이터 세트를 구성하는 것은 매우 힘들고 시간이 오래 걸린다는 점을 관측한다. 모든 학습 샘플에 수동으로 레이블을 추가하는 것과 달리 웹에서 짝을 이루지 않은 이미지 및 캡션을 별도로 수집하기는 훨씬 쉽다. 이에 따라 본 논문에서는 짝을 이루지 않은 이미지 및 캡션 데이터와 소량의 짝을 이룬 데이터로 이미지 캡션을 학습하기 위한 새로운 프레임워크를 제안한다. 우리는 또한 생성적 적대 네트워크 (GAN)의 판별자 (Discriminator)의 새로운 사용을 통해 새로운 준지도학습 방식을 고안한다. 우리는 우리의 scarcely-paired COCO 데이터셋을 포함하여 다양한 이미지 캡션 설정에서 강력한 비교 대상들에 비해 제안된 방법의 효과를 이론적으로 그리고 실험적으로 보여준다.

서지기타정보

서지기타정보
청구기호 {DEE 21084
형태사항 ix, 100 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김동진
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning". IEEE Conference on Computer Vision and Pattern Recognition (CVPR), (2019)
수록잡지명 : "Image Captioning with Very Scarce Supervised Data: Adversarial Semi-Supervised Learning Approach". Conference on Empirical Methods in Natural LanguageProcessing (EMNLP), (2019)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 86-97
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서