This paper considers a network referred to as p-LocalNet for pixel accuracy localization of the object referred to by the given input text-phrase. Given an image with a text-phrase describing an object of interest, the network is to localize the region of the object with pixel accuracy referred to by the text-phrase. To achieve this task, p-LocalNet associates visual representation with linguistic representation according to spatial area. The input text-phrase is fed into a long short-term memory network (LSTM) in generating local and global weights that can be associated with both spatially local and global visual representations of the input image. The spatially local and global visual representations of the input image are extracted from multi-level feature maps of convolutional neural network (CNN). To associate each visual representation with each weight, two stream feature-wise linear modulation (FiLM) are employed. To evaluate p-LocalNet, a small subset of MSCOCO dataset related only to baseball is collected and manually labeled. We refer to this dataset as the Baseball Game Dataset (BG-Dataset). The images are manually selected, and each image is described in detail and labeled in a binary map highlighting the object. The experimental results demonstrate that BG-Dataset is well organized to localize the object based on text-phrase, and p-LocalNet is capable of localizing the object with high pixel accuracy.
이 논문에서는 주어진 입력 텍스트 문구에 의해 참조되는 객체의 픽셀 정확도 위치 추정을 위해 p-LocalNet이라고하는 네트워크를 고려한다. 관심 객체를 설명하는 텍스트 문구가있는 이미지가 주어지면 네트워크는 텍스트 문구가 나타내는 객체 위치를 픽셀 정확도로 추정한다. 이 작업을 수행하기 위해, p-LocalNet은 공간 영역에 따른 시각적 표현을 언어 표현과 연관시킨다. 입력 텍스트 문구는 입력 이미지의 공간적 지역 또는 전역 시각적 표현과 연관 될 수 있는 지역 및 전역 가중치를 생성하는 장단기 메모리 순환신경망 (LSTM)에 공급된다.
입력 이미지의 공간적 지역 및 전역 시각적 표현은 컨볼루셔널 신경망 (CNN)의 다단계 특징 맵에서 추출된다. 각각의 시각적 표현을 각 가중치와 연관시키기 위해 두 개의 특징 별 선형 모듈 (FiLM) 흐름이 사용된다. p-LocalNet을 평가하기 위해, 야구에만 관련된 MSCOCO 데이터 집합의 작은 하위 집합을 수집하고 수동으로 레이블을 지정합니다. 이 데이터 세트를 야구 게임 데이터 세트 (BG-Dataset)라고 한다. 수동적으로 이미지를 선택하고, 각 이미지의 객체를 자세히 설명하며, 이에 따른 객체는 바이너리 맵으로 지정되었다. 실험 결과는 텍스트 구문을 기반 BG-Dataset이 객체의 위치 추정하기 위해 잘 조직되었으며, p-LocalNet이 객체를 높은 픽셀 정확도로 위치를 추정 할 수 있음을 보여준다.