Noun similarity measures the semantic likeness between two nouns, and it generally means semantic similarity. Measuring semantic similarity requires an information resource such as a corpus or knowledge base. In this thesis, we focus on methods for using corpus data. Previous research on computing semantic similarity using corpus data still has some critical limitations. First, the target nouns should directly or indirectly co-occur in the corpus. Also, the words that are semantically unrelated to the target words in the context can be incorrectly used as representing the meaning. To overcome these limitations, we propose a method of utilizing the modifying adjectives in the context of a target noun. By using adjectives for a target noun, we can extract contextual information regardless of whether or not it co-occur with the other noun being compared in the corpus. To effectively make use of adjective information, we adopt the adjective classification method from past research. With the method we form vectors, each representing attributes of each adjective. We evaluate the proposed method with existing benchmarks and compare the performance with past studies. The result shows that adjective information has a positive impact on measuring noun similarity.
명사 간 의미 유사도는 두 명사 사이의 의미적인 거리를 나타내기 위한 척도이다. 이를 측정하기 위해 과거 연구들은 주로 말뭉치 혹은 지식 베이스를 자원으로 활용하였다. 본 학위논문은 이 중 말뭉치를 활용한 명사 간 의미 유사도 측정에 초점을 맞추었다. 말뭉치를 활용하여 명사 간 의미 유사도를 측정한 선행 연구들은 모두 다음과 같은 한계점들을 보였다. 측정하고자 하는 두 명사가 직간접적으로 같이 등장해야 한다는 것, 그리고 문맥에 등장하는 불필요한 단어들 또한 유사도 측정 대상 명사의 의미를 나타내는 정보로서 사용된다는 것이다. 본 학위논문에서는 이를 해결하기 위해 대상 명사를 수식하는 형용사의 활용을 제안하였다. 형용사를 사용함으로써 측정하고자 하는 두 명사가 직간접적으로 동시에 등장하였는가 여부와 무관하게 컨텍스트 정보를 추출하고 효율적으로 활용할 수 있다. 형용사의 활용도를 높이기 위해 우리는 기존에 연구된 형용사 분류 방법을 차용하였다. 이 방법을 통해 각 형용사마다 해당 형용사의 속성을 나타내는 벡터를 구성하고 사용하였다. 기존의 벤치마크를 통해 선행연구와의 단어 간 유사도 측정 성능을 비교하였고 그 결과 형용사 정보가 명사 간 의미 유사도 측정에 충분히 긍정적인 영향을 미침을 보일 수 있었다.