We present a novel, stereotype-based semantic expansion approach to identify
various image sets that stereotypically represent different aspects of a given
keyword. Specifically, given an adjective keyword query, our method expands it
to a set of noun sub-keywords, which are stereotypical examples that can be
described by the given adjective (e.g., "cute" to "{infant, kitten,
...}"). We also perform a similar process for given noun keywords with
adjectives (e.g., "infant" to "{cute, sweet, ...}"). To perform such
expansion, we use Google Books n-grams, a new corpus of 500 million digitized
books.
We harvest stereotypical relationships among nouns and adjectives by utilizing
useful lexical patterns such as similes on n-grams. In order to demonstrate
benefits of our method, we have applied our method to image retrieval. By
suggesting our expanded sub-keywords additionally to commonly co-occurring
terms our method can explore unusual concepts and their corresponding images
that are stereotypically related to the keyword.
기존에 공유되던 수 많은 정보들은 대개 문자의 형태가 주를 이루었으나 최근에는 하드웨어의 발전과 함께 이미지, 동영상 등 영상 기반의 정보 또한 활발히 공유되고 있다. 이러한 영상 기반 정보의 경우 를 효과적으로 검색하기 위한 다양한 방법이 연구되고 있다.
본 학위논문에서는 다양한 영상 기반 정보가 가진 문자 정보를 이용하여 영상 정보를 검색하는 문자 기반 영상 정보 검색방법에 있어 주어진 키워드의 스테레오타입을 이용한 확장을 이용하는 방법을 제안한다. Google books ngram이라는 방대한 corpus에서 영어 문법 구조를 활용한 의미 확장 기법을 통계적으로 활용하여 단어 간 관계를 추출하여 이를 문자기반 영상 정보 검색에 적용한다. 이처럼 확장된 단어 간 관계를 이용하여 대개 명사만으로 이루어진 영상정보에 포함된 라벨, 태그 등 문자정보들에서 명사/형용사를 모두 질의로 테스트하여 좀 더 다양한 결과가 도출됨을 확인하였다. 또한 user study를 통해 주어진 질의에 의한 이미지 검색 결과보다 질의를 스테레오타입 기반 의미확장을 통해 얻은 다양한 이미지 검색 결과가 더 높은 유저 만족도를 제공함을 확인하였다.