서지주요정보
Visual reasoning with neural program induction = 신경망 기반 프로그램 귀납을 통한 시각적 추론
서명 / 저자 Visual reasoning with neural program induction = 신경망 기반 프로그램 귀납을 통한 시각적 추론 / Kang-il Lee.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039024

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MME 22038

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, I propose a neural program induction method for learning visual reasoning task. First, I point out the reason why the existing deep learning methods do not generalize to new types of problems that have not been seen during training. Specifically in PGM(Procedurally Generated Matrices), a visual reasoning benchmark that can measure generalization ability toward novel composition of concepts, I show that a deep learning model without sufficient prior knowledge of PGM domain always can fail, even though the domain consists of very basic concepts. As an alternative solution to this problem, I propose a neural-symbolic system to solve visual reasoning problems. Firstly, I define a domain-specific language(DSL) consisting of functions designed to solve PGM problems. Next, a probability distribution over DSL sentences, or programs, is modeled with train samples and neural networks. Finally, based on the predicted probability distribution, the program is executed sequentially from the highest probability until one correct answer is found among the eight options. The proposed method achieves an accuracy of 97.53% with an average of 9.12 program executions per problem in PGM held-out triples test set, where the novel composition of objects, attributes and relations appears.

이 논문에서는 시각적 추론을 위한 신경망 기반 프로그램 귀납 학습 알고리즘을 제안한다. 먼저, 기존의 심층 학습 방식들이 학습시에 보지 못했던 새로운 유형의 문제에 일반화하지 못하는 이유를 지적한다. 특히, 규칙들의 새로운 조합에 일반화하는 능력을 측정할 수 있는 시각적 추론 벤치마크인 PGM(Procedurally Generated Matrices)에서, 매우 기초적인 성질과 규칙을 다루는 일에 있어서도 도메인에 대해 충분한 사전 지식이 없는 학습 알고리즘은 항상 실패할 수 있음을 보인다. 이러한 문제점에 대한 대안으로, 이 논문에서는 시각적 추론 문제를 풀기 위한 신경망-기호적 시스템을 제안한다. 우선, PGM의 문제를 풀기 위한 함수들로 이루어진 도메인 특화 언어(Domain-specific Language, DSL)를 정의한다. 그 다음, 학습 데이터와 인공 신경망을 통해 문제의 이미지가 주어졌을 때 해당 문제를 풀 수 있는 DSL의 문장들, 즉 프로그램들의 확률 분포를 모델링한다. 마지막으로, 예측한 확률분포를 기반으로 8개의 선택지 중에서 하나의 정답이 나올 때까지 확률이 높은 것부터 차례로 프로그램을 실행시킨다. 제안된 방식은 PGM의 새로운 규칙의 조합이 등장하는 held-out triples 테스트셋에서 평균적으로 9.12회의 프로그램 실행 횟수로 97.53%의 정확도를 달성했다.

서지기타정보

서지기타정보
청구기호 {MME 22038
형태사항 iii, 30 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이강일
지도교수의 영문표기 : Kuk-Jin Yoon
지도교수의 한글표기 : 윤국진
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 25-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서