LLM-based framework for generating barrier-free audio descriptions = 대형언어모델 기반 배리어프리 화면해설 자동 생성 프레임워크
서명 / 저자 LLM-based framework for generating barrier-free audio descriptions = 대형언어모델 기반 배리어프리 화면해설 자동 생성 프레임워크 / Jaehyeong Park.
발행사항 [대전 : 한국과학기술원, 2024].
We address a framework for generating barrier-free audio descriptions (AD), specifically designed for visually impaired people. Barrier-free audio description is a narration that delivers key visual information to visually impaired people about the contents of video media such as movies and dramas. Given the increasing importance of visual media, it holds significant value in preventing social exclusion of visually impaired people. AD generation is more challenging than general video captioning as it requires reflecting the overall context of the movie and the names of characters for each video description. We leverage the rich contextual information from movie scripts and the capabilities of multi-modality LLM to generate audio descriptions. It involves identifying parts of the movie script relevant to the videos to be described, acquiring information about the contextual narrative of the movie and names of characters. Then, we incorporate this information into video descriptions using the multi-modality LLM. Our framework produces higher quality audio descriptions than previous works, without the need for additional training.

본 논문은 시각장애인을 위한 배리어프리 화면해설 자동생성 프레임워크에 대해 다룬다. 배리어프리 화면 해설이란 시각장애인이 영화, 드라마 등을 더욱 풍부하게 감상할 수 있도록 음성으로 영화 속 장면에 대해 설명하는 나레이션이다. 영상 매체의 중요도가 높아지고 있는 지금, 시각장애인의 사회적 소외를 방지한다는 점에서 매우 큰 가치가 있다. 한 장면을 묘사하기 위해 영화 전체의 상황 맥락과 등장인물의 이름을 반영해야 한다는 점에서 일반적인 비디오 캡션 생성보다 더욱 까다로운 분야이다. 본 논문은 영화 대본이 담고 있는 영화에 대한 풍부한 상황 맥락과 다중 모달리티 대형 언어 모델을 활용하여 화면해설을 생성한다. 영화 대본에서 묘사하고자 하는 장면과 관련있는 부분을 찾아 영화의 상황 맥락과 등장인물의 이름에 대한 정보를 획득하고, 이러한 정보를 다중 모달리티 대형 언어 모델을 통해 영상 묘사에 반영한다. 본 프레임워크는 추가적인 학습 없이 기존 연구보다 더 높은 품질의 화면해설을 생성한다.


청구기호 {MEE 24123
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박재형
지도교수의 영문표기 : Dongsu Han
지도교수의 한글표기 : 한동수
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 21-23
주제 Barrier-free audio description
Large language model
Movie script
Video captioning
배리어프리 화면해설
대형 언어 모델
영화 대본
영상 캡션 생성





