서지주요정보
Toward universal computer vision task solver with single unified model = 단일 통합 모델을 통해 범용적인 컴퓨터 비전 테스크들을 풀기 위한 연구
서명 / 저자 Toward universal computer vision task solver with single unified model = 단일 통합 모델을 통해 범용적인 컴퓨터 비전 테스크들을 풀기 위한 연구 / SeongJae Kang.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041926

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24037

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the advancements in Large Language Models (LLMs), a variety of Natural Language Processing(NLP) tasks can be effectively addressed using single unified LLM backbones. Notably, Instruction Tuning leverages the emergent abilities of LLMs by handling diverse language tasks through language instructions. However, in the field of computer vision, there is no single unified system capable of solving all types of computer vision tasks due to the inherent diversity of such tasks. In this paper, we propose an approach to address various computer vision tasks by utilizing the capabilities of visual instruction tuning. By unifying the model’s input and output as either text or image, we design a sequence-to- sequence modeling framework for computer vision tasks. In summary, we present a framework designed to solve any type of computer vision task—a universal computer vision task solver

대형 언어 모델(Large Language Models, LLMs)의 진화에 따라, 많은 자연어 처리(NLP) 태스크들이 하나의 통합된 대규모 백본 모델을 통해 효율적으로 해결될 수 있게 되었다. 특히, 지시 튜닝(Instruction Tuning)을 사용하는 방식은 대형 언어 모델의 포괄적인 능력을 활용하여 다양한 태스크들을 처리할 수 있게 만들었다. 그러나 컴퓨터 비전 분야에서는 태스크마다 요구되는 출력 형태가 다양하여, 단일 모델로 모든 태스크를 해결하는 것이 어렵다는 한계가 존재하였다. 본 논문에서는 시각적 지시 튜닝(Visual Instruction Tuning) 을 이용하여 다양한 컴퓨터 비전 태스크들을 통합적으로 다룰 수 있는 새로운 방법을 제시한다. 구체적으 로는, 모델의 입력과 출력을 텍스트와 이미지 모두를 포괄하는 시퀀스-투-시퀀스 형식으로 처리함으로써, 하나의 모델로 다양한 형태의 입력과 출력을 다룰 수 있게 만들고, 이를 통해서 다양한 형태의 컴퓨터 비전 테스크들을 풀 수 있게 만드는 방법을 제안한다. 요약하자면, 본 논문은 다양한 컴퓨터 비전 태스크들을 일괄적으로 처리할 수 있는 포괄적인 프레임워크를 제안한다.

서지기타정보

서지기타정보
청구기호 {MAI 24037
형태사항 iii, 27p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강성재
지도교수의 영문표기 : Sung Ju Hwang
지도교수의 한글표기 : 황성주
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 23-27
주제 Multimodal learning
Large language model
Foundation model
Instruction tuning
Visual instruction tuning
Sequence-to-sequence modeling
Computer vision tasks
멀티모달러닝
대형언어모델
기반모델
지시튜닝
시각지시튜닝
시퀸스-투-시퀸스 모델링
컴퓨터 비전 테스크
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서