서지주요정보
Where is your player : Deep pixel-wise visual localization on baseball game data via text-phrase = 야구 게임 데이터에 대한 텍스트 문구 기반 심층 픽셀 단위 시각적 위치 추정
서명 / 저자 Where is your player : Deep pixel-wise visual localization on baseball game data via text-phrase = 야구 게임 데이터에 대한 텍스트 문구 기반 심층 픽셀 단위 시각적 위치 추정 / Minsu Kim.
저자명 Kim, Minsu ; 김민수
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032040

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18021

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

This paper considers a network referred to as p-LocalNet for pixel accuracy localization of the object referred to by the given input text-phrase. Given an image with a text-phrase describing an object of interest, the network is to localize the region of the object with pixel accuracy referred to by the text-phrase. To achieve this task, p-LocalNet associates visual representation with linguistic representation according to spatial area. The input text-phrase is fed into a long short-term memory network (LSTM) in generating local and global weights that can be associated with both spatially local and global visual representations of the input image. The spatially local and global visual representations of the input image are extracted from multi-level feature maps of convolutional neural network (CNN). To associate each visual representation with each weight, two stream feature-wise linear modulation (FiLM) are employed. To evaluate p-LocalNet, a small subset of MSCOCO dataset related only to baseball is collected and manually labeled. We refer to this dataset as the Baseball Game Dataset (BG-Dataset). The images are manually selected, and each image is described in detail and labeled in a binary map highlighting the object. The experimental results demonstrate that BG-Dataset is well organized to localize the object based on text-phrase, and p-LocalNet is capable of localizing the object with high pixel accuracy.

이 논문에서는 주어진 입력 텍스트 문구에 의해 참조되는 객체의 픽셀 정확도 위치 추정을 위해 p-LocalNet이라고하는 네트워크를 고려한다. 관심 객체를 설명하는 텍스트 문구가있는 이미지가 주어지면 네트워크는 텍스트 문구가 나타내는 객체 위치를 픽셀 정확도로 추정한다. 이 작업을 수행하기 위해, p-LocalNet은 공간 영역에 따른 시각적 표현을 언어 표현과 연관시킨다. 입력 텍스트 문구는 입력 이미지의 공간적 지역 또는 전역 시각적 표현과 연관 될 수 있는 지역 및 전역 가중치를 생성하는 장단기 메모리 순환신경망 (LSTM)에 공급된다. 입력 이미지의 공간적 지역 및 전역 시각적 표현은 컨볼루셔널 신경망 (CNN)의 다단계 특징 맵에서 추출된다. 각각의 시각적 표현을 각 가중치와 연관시키기 위해 두 개의 특징 별 선형 모듈 (FiLM) 흐름이 사용된다. p-LocalNet을 평가하기 위해, 야구에만 관련된 MSCOCO 데이터 집합의 작은 하위 집합을 수집하고 수동으로 레이블을 지정합니다. 이 데이터 세트를 야구 게임 데이터 세트 (BG-Dataset)라고 한다. 수동적으로 이미지를 선택하고, 각 이미지의 객체를 자세히 설명하며, 이에 따른 객체는 바이너리 맵으로 지정되었다. 실험 결과는 텍스트 구문을 기반 BG-Dataset이 객체의 위치 추정하기 위해 잘 조직되었으며, p-LocalNet이 객체를 높은 픽셀 정확도로 위치를 추정 할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 18021
형태사항 iii, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김민수
지도교수의 영문표기 : Chang D. Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 22-25
주제 Deep learning
pixel-wise localization
object selection
multi-modal
segmentation
심층 학습
픽셀 정확도 위치 추정
객체 선택
다중 모달
영역 분할
QR CODE qr code