With the advancements in Large Language Models (LLMs), a variety of Natural Language Processing(NLP) tasks can be effectively addressed using single unified LLM backbones. Notably, Instruction Tuning leverages the emergent abilities of LLMs by handling diverse language tasks through language instructions. However, in the field of computer vision, there is no single unified system capable of solving all types of computer vision tasks due to the inherent diversity of such tasks. In this paper, we propose an approach to address various computer vision tasks by utilizing the capabilities of visual instruction tuning. By unifying the model’s input and output as either text or image, we design a sequence-to- sequence modeling framework for computer vision tasks. In summary, we present a framework designed to solve any type of computer vision task—a universal computer vision task solver
대형 언어 모델(Large Language Models, LLMs)의 진화에 따라, 많은 자연어 처리(NLP) 태스크들이 하나의 통합된 대규모 백본 모델을 통해 효율적으로 해결될 수 있게 되었다. 특히, 지시 튜닝(Instruction Tuning)을 사용하는 방식은 대형 언어 모델의 포괄적인 능력을 활용하여 다양한 태스크들을 처리할 수 있게 만들었다. 그러나 컴퓨터 비전 분야에서는 태스크마다 요구되는 출력 형태가 다양하여, 단일 모델로 모든 태스크를 해결하는 것이 어렵다는 한계가 존재하였다. 본 논문에서는 시각적 지시 튜닝(Visual Instruction Tuning) 을 이용하여 다양한 컴퓨터 비전 태스크들을 통합적으로 다룰 수 있는 새로운 방법을 제시한다. 구체적으 로는, 모델의 입력과 출력을 텍스트와 이미지 모두를 포괄하는 시퀀스-투-시퀀스 형식으로 처리함으로써, 하나의 모델로 다양한 형태의 입력과 출력을 다룰 수 있게 만들고, 이를 통해서 다양한 형태의 컴퓨터 비전 테스크들을 풀 수 있게 만드는 방법을 제안한다. 요약하자면, 본 논문은 다양한 컴퓨터 비전 태스크들을 일괄적으로 처리할 수 있는 포괄적인 프레임워크를 제안한다.