서지주요정보
Besra: Self-correction for hallucination mitigation in large vision-language models = 베스라: 대형 시각 언어 모델의 환각 완화를 위한 자체 교정
서명 / 저자 Besra: Self-correction for hallucination mitigation in large vision-language models = 베스라: 대형 시각 언어 모델의 환각 완화를 위한 자체 교정 / Yeonju Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042130

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Large Vision-Language Models (LVLMs) have revolutionized the field of computer vision by unifying various computer vision tasks through their ability to comprehend visual information. However, they often suffer from hallucination, generating inconsistent descriptions not aligned with input images. This paper introduces Besra, a Large Vision-Language Model designed to address hallucination by incorporating a self-correction task. Besra leverages its iterative refinement capability to enhance generated sentences' consistency with provided images. The model iteratively refines descriptions by refeeding them alongside corresponding images, facilitating a detailed examination of specific image regions. Besra-Self-Correction-30K, a proposed dataset, trains Besra's self-correction ability by inducing corrections based on predictions from a baseline LVLM. The approach aims to mitigate hallucination, enabling Besra to generate more accurate and contextually relevant descriptions through active image scrutiny. We evaluate Besra on POPE and MME benchmark and prove that a self-correction task is helpful for hallucination mitigation.

대형 시각언어 모델은 시각적 정보를 이해하는 능력을 통해 다양한 컴퓨터 비전 작업을 통합하여 컴퓨터 비전 분야에 혁명을 일으켰습니다. 그러나 그들은 종종 환각 현상에 시달려 입력 이미지와 일치하지 않는 설명을 생성합니다. 이 논문에서는 자체 교정 작업을 통합하여 환각 현상을 해결하도록 설계된 대형 시각언어 모델인 Besra를 소개합니다. Besra는 반복적 개선 기능을 활용하여 생성된 문장과 제공된 이미지의 일관성을 향상합니다. 모델은 이미 생성된 문장을 해당 이미지와 함께 다시 공급하여 반복적으로 답변을 개선하고 특정 이미지 영역에 대한 자세한 조사를 하게 합니다. 제안된 데이터 세트인 베스라-자체교정-데이터셋은 기준 모델이 생성한 문장을 기반으로 수정을 유도하여 베스라의 자체 교정 능력을 훈련합니다. 이 접근 방식은 환각 현상을 완화하여 베스라가 적극적인 이미지 조사를 통해 보다 정확하고 상황에 맞는 설명을 생성할 수 있도록 하는 것을 목표로 합니다. 우리는 자가 교정 작업이 환각 현상 완화에 도움이 된다는 것을 입증하기 위해 POPE 및 MME에서 Besra를 평가하였고, 자체 교정 작업이 환각 현상 완화에 도움이 된다는 것을 입증하였습니다.

서지기타정보

서지기타정보
청구기호 {MEE 24018
형태사항 iii, 22 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김연주
지도교수의 영문표기 : Yongman Ro
지도교수의 한글표기 : 노용만
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 16-20
주제 Large vision-language model
Hallucination
Self-correction
Besra
Besra-self-correction-30K
대형 시각 언어 모델
환각 현상
자체 교정 작업
베스
베스라-자체교정-데이터셋
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서