서지주요정보
Associative learning for multimodal representation under ambiguous pair problems = 모호한 페어 문제 하에서의 멀티모달 표현을 위한 연상 학습
서명 / 저자 Associative learning for multimodal representation under ambiguous pair problems = 모호한 페어 문제 하에서의 멀티모달 표현을 위한 연상 학습 / Sangmin Lee.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040306

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23035

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Our daily life is full of multimodal information such as visual, audio, and language representations. Humans recognize daily events naturally by processing such multimodal information comprehensively. It is possible because humans are aware of the relationships among multimodal information. Therefore, in order to understand the world at a human level, machines need to learn and be aware of the relationships among multimodal data beyond a single modal one. However, the relationships of given multimodal data in real-world environments are not always enough or certain for machines to learn. For example, when it is difficult to obtain certain modal data, the number of multimodal data pairs for machines to learn can be limited. In addition, even if there are enough multimodal data pairs, their relationships can be mismatched sometimes, which may confuse machines. Such situations with limited and mismatched pairs can be considered to have ambiguous pair problems that hinder machines from learning multimodal relationships. Therefore, it is necessary to address the ambiguous pair problems in order to learn multimodal relationships robustly even in real-world environments. We deal with ambiguous pair problems for multimodal representation through multimodal association approaches that can compensate lack of paired information. We address audio-visual representation learning and text-video retrieval tasks which suffer from limited and mismatched pair problems, respectively. First, we propose a novel audio-visual representation learning approach based on associative learning that can utilize abundant unpaired data under the limited pair problem. Second, we introduce a novel text-video retrieval method based on associative learning which can recognize mismatched features and mitigate the mismatch effect under the mismatched pair problem. The proposed methods are validated to show the effectiveness of the associative learning approach under ambiguous pair problems by conducting extensive experiments including comparisons to the state-of-the-art methods, ablation studies, and further qualitative/quantitative analyses.

우리의 일상은 시각, 청각, 언어 표현과 같은 멀티모달 정보로 가득 차 있다. 인간은 이러한 멀티모달 정보를 종합적으로 처리함으로써 일상의 사건을 자연스럽게 인식한다. 이는 인간이 멀티모달 정보 간의 관계를 인지하고 있기 때문에 가능하다. 따라서, 기계가 인간 수준으로 세상을 이해하기 위해서는 단일 모달 데이터를 넘어 멀티모달 데이터 간의 관계를 학습하고 인지할 수 있어야 한다. 하지만, 실환경에서 주어진 멀티모달 데이터 간의 관계는 기계가 학습하기에 항상 충분하고 확실한 것은 아니다. 예를 들어, 특정 모달 데이터를 얻기 어려운 경우에는 기계가 멀티모달 관계를 학습하기에 멀티모달 데이터 페어 수가 제한적일 수 있다. 또한, 충분한 멀티모달 데이터 페어가 있더라도, 그들의 관계가 때때로 일치하지 않을 수 있으며, 이는 기계의 멀티모달 학습을 혼란스럽게 할 수 있다. 페어의 수가 자체가 제한적이거나 페어가 일치하지 않는 이러한 상황은 기계가 멀티모달 관계를 학습하는 것을 방해하는 모호한 페어 문제를 가지고 있다고 볼 수 있다. 따라서, 실제 환경에서도 멀티모달 관계을 강인하게 학습하기 위해서는 이러한 모호한 페어 문제를 해결해야 한다. 본 논문에서, 우리는 멀티모달 데이터 페어 정보의 부족을 보완할 수 있는 모달 간 연상 접근법을 통해 모호한 페어 문제를 다루고자 한다. 구체적으로 우리는 제한된 페어 문제 하에서의 시청각 표현 학습 응용과 불일치 페어 문제 하에서의 텍스트-비디오 검색 응용을 다룬다. 첫째, 제한된 페어 문제 하에서 풍부한 언페어 데이터를 활용할 수 있는 연상 학습 기반의 새로운 시청각 표현 학습 방법을 제안한다. 둘째, 불일치 페어 문제 하에서 불일치된 멀티모달 특징을 인지하고 불일치 영향을 완화할 수 있는 연상 학습 기반의 새로운 텍스트-비디오 검색 방법을 제안한다. 제안된 두 방법은 각각 최신 방법들과의 비교, 절제 연구 및 질적/양적 분석을 포함한 광범위한 실험을 통해 검증되며 모호한 페어 문제 하에서의 연상 학습 접근법의 효과를 보여준다.

서지기타정보

서지기타정보
청구기호 {DEE 23035
형태사항 vi, 70 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이상민
지도교수의 영문표기 : Yong Man Ro
지도교수의 한글표기 : 노용만
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 56-67
주제 Multimodal
Ambiguous pair problems
Limited pairs
Mismatched pairs
Associative learning
Audio-visual representation learning
Text-video retrieval
멀티모달
모호한 페어 문제
제한된 페어
불일치 페어
연상 학습
시청각 표현 학습
텍스트-비디오 검색
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서