서지주요정보
LLM-based framework for generating barrier-free audio descriptions = 대형언어모델 기반 배리어프리 화면해설 자동 생성 프레임워크
서명 / 저자 LLM-based framework for generating barrier-free audio descriptions = 대형언어모델 기반 배리어프리 화면해설 자동 생성 프레임워크 / Jaehyeong Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042235

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24123

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We address a framework for generating barrier-free audio descriptions (AD), specifically designed for visually impaired people. Barrier-free audio description is a narration that delivers key visual information to visually impaired people about the contents of video media such as movies and dramas. Given the increasing importance of visual media, it holds significant value in preventing social exclusion of visually impaired people. AD generation is more challenging than general video captioning as it requires reflecting the overall context of the movie and the names of characters for each video description. We leverage the rich contextual information from movie scripts and the capabilities of multi-modality LLM to generate audio descriptions. It involves identifying parts of the movie script relevant to the videos to be described, acquiring information about the contextual narrative of the movie and names of characters. Then, we incorporate this information into video descriptions using the multi-modality LLM. Our framework produces higher quality audio descriptions than previous works, without the need for additional training.

본 논문은 시각장애인을 위한 배리어프리 화면해설 자동생성 프레임워크에 대해 다룬다. 배리어프리 화면 해설이란 시각장애인이 영화, 드라마 등을 더욱 풍부하게 감상할 수 있도록 음성으로 영화 속 장면에 대해 설명하는 나레이션이다. 영상 매체의 중요도가 높아지고 있는 지금, 시각장애인의 사회적 소외를 방지한다는 점에서 매우 큰 가치가 있다. 한 장면을 묘사하기 위해 영화 전체의 상황 맥락과 등장인물의 이름을 반영해야 한다는 점에서 일반적인 비디오 캡션 생성보다 더욱 까다로운 분야이다. 본 논문은 영화 대본이 담고 있는 영화에 대한 풍부한 상황 맥락과 다중 모달리티 대형 언어 모델을 활용하여 화면해설을 생성한다. 영화 대본에서 묘사하고자 하는 장면과 관련있는 부분을 찾아 영화의 상황 맥락과 등장인물의 이름에 대한 정보를 획득하고, 이러한 정보를 다중 모달리티 대형 언어 모델을 통해 영상 묘사에 반영한다. 본 프레임워크는 추가적인 학습 없이 기존 연구보다 더 높은 품질의 화면해설을 생성한다.

서지기타정보

서지기타정보
청구기호 {MEE 24123
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박재형
지도교수의 영문표기 : Dongsu Han
지도교수의 한글표기 : 한동수
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 21-23
주제 Barrier-free audio description
Large language model
Movie script
Video captioning
배리어프리 화면해설
대형 언어 모델
영화 대본
영상 캡션 생성
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서