서지주요정보
(A) bootstrapping technique for acquiring domain-specific features in sentiment analysis = 감성분석에서 부트스트래핑 기법을 이용한 도메인 특성 자질 추출 방법
서명 / 저자 (A) bootstrapping technique for acquiring domain-specific features in sentiment analysis = 감성분석에서 부트스트래핑 기법을 이용한 도메인 특성 자질 추출 방법 / Young-Ho Kim.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020852

소장위치/청구기호

학술문화관(문화관) 보존서고

MICE 09008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

People are eager to know what others are thinking or feeling about subject matters such as products, politicians, and social issues, as witnessed by a rapid growth in online discussion groups and review sites (e.g., Yahoo forum, Amazon, New York Times). An automatic mining of subjective texts that convey people’s negative or positive sentiments towards specific objects are quite useful for individuals, governments, and companies. Reflecting the importance, many researchers have studied the area of sentiment analysis which includes the sub-tasks of sentiment-bearing text identification, polarity determination, and sentiment target identification. These tasks all exploit sentiment clue words (e.g., “angry”, “happy”): a sentence is deemed negative if it contains negative clues, for example. However, previous approaches to clue identifications fail to associate clues to specific topics or domains. The thesis addresses the problem of automatically generating domain-specific sentiment clues that are specific to a domain. The domain-specific nature of sentiment classification makes it essential to develop a clue lexicon for each domain, especially with news articles that cover diverse domains. Based on our observation that a sentiment clue is often syntactically related to a sentiment topic in a sentence, which is defined as a primary subject of sentiment expression, such as event, company, and person, we developed a novel method for automatically extracting sentiment clues in different domains. The main idea is to bootstrap from a small set of seed clues and generate new clues by utilizing linguistic dependencies and collocation information between sentiment clues and sentiment topics. A newly learned classifier with the new set of clues makes it possible to continue the bootstrapping process. We ran experiments to see the number of iterations required for convergence and show the technique is effective in building domain-specific sentiment classifiers.

최근 온라인 토론 그룹과 리뷰 사이트 (예, 야후 포럼, 아마존, 뉴욕 타임즈)의 급속한 발전함에 따라 사람들은 주관적인 대상 즉, 예를 들어 상품, 정치가, 그리고 사회적 이슈에 대해서 다른 사람들이 느끼는 감성을 알고 싶어한다. 구체적인 대상에 대한 사람들의 긍정 혹은 부정적인 감성을 안고 있는 텍스트를 자동적으로 마이닝 하는 것은 개인, 정부, 그리고 기업에서 아주 유용한 정보이다. 이러한 중요성을 반영하여, 많은 연구자들은 감성 분석의 분야를 연구해왔다. 이러한 감성 분석 (감성 분류)에서는 감성을 가지는 텍스트를 찾아내고, 찾아낸 감성 텍스트의 극성 (긍정, 부정, 혹은 중립)을 판단하며, 감성의 대상을 식별하는 작업이 포함된다. 이러한 모든 과제들은 “angry”, “happy” 와 같은 감성 단어 (혹은 감성 단서, 감성 자질) 들을 적극 활용한다: 한 문장이 부정적인 감성 단어들을 가지고 있으면 그 문장은 부정적 극성을 띄는 것으로 판단한다. 그러나 기존 연구들에서는 주제 도메인 특성 때문에 이러한 감성단어들이 제한적으로 사용될 수 밖에 없었다. 본 논문에서는 자동적으로 도메인 특성 자질을 생성 (자동적으로 도메인 특성을 고려한 감성을 나타내는 단어를 추출) 해 내는 문제를 언급한다. 특히, 뉴스의 경우 다양한 주제를 다루게 되며, 감성 분류에서의 도메인 특성에 기인한 문제 때문에 새로운 도메인에서의 도메인 특성 자질을 자동적으로 추출하는 방법을 고안하는 것이 필수적으로 요구된다. 관찰에 의하면, 감성 단서가 되는 단어들은 종종 문장내의 감성 주제어 (감성 표현의 주된 주제어가 되는 사건, 사람, 회사 등의 개체명) 와 구조적인 연관 관계를 가진다. 그러므로 우선 이러한 감성 주제어를 찾아내는 새로운 방법을 개발하였다. 이것을 바탕으로 본 논문에서는 최소한의 예제 문장들을 바탕으로 감성 주제어와 감성 단어들간의 언어적 의존관계와 공기성(共起性)을 활용한 새로운 감성 단어들을 추출하기 위한 부트스트래핑 방법을 제안한다. 새로운 감성 단어를 통해 새롭게 학습된 분류기는 새로운 학습 문장을 분류해냄으로써 부트스트래핑 과정을 계속 가능하도록 해준다. 실험을 통해 몇 번의 반복을 통해 수렴하는지를 측정하였고 본 논문에서 제안한 방법이 도메인 특성을 고려한 감성 분류기를 만드는데 효과적인 것을 보였다.

서지기타정보

서지기타정보
청구기호 {MICE 09008
형태사항 vi, 45 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김영호
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
학위논문 학위논문(석사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 37-40
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서