서지주요정보
Co-burst based topical word extraction for text summarization and search = 텍스트 요약 및 검색을 위한 코-버스트 기반 토픽 단어 추출
서명 / 저자 Co-burst based topical word extraction for text summarization and search = 텍스트 요약 및 검색을 위한 코-버스트 기반 토픽 단어 추출 / Chihoon Jung.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037780

소장위치/청구기호

학술문화관(문화관) 보존서고

DKSE 20011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The rapid increase of electronical text necessitates reliable automatic text analysis that supports human knowledge tasks. Among the most promising topics are document summarization and topical search for desired documents. This research suggests considering the writer’s cognitive process of communication, formed as a sequence of topics. A topical word set in a part of a document may indicate the schemas that compose the subject in that point of discourse. If the topical word sets can be extracted, they can be used to improve both text summarization and document search. The co-burst based topical word extraction method is proposed to find the schematic terms. Burst analysis detects where a word is more active or bursty than in the other parts. A set of words having bursts together, or co-burst, may represent the topic schemas in that part. The proposed method is implemented and applied first to the single-document summarization. A knowledge-based approach using a knowledge base is used as a complementary method. The result shows that the new approach outperforms the current state-of-the-art summarization, verifying that using the schema terms found by the co-burst detection method has a great effect. The approach is also applied to multi-document summarization. The problem is formulated as a multi-objective optimization with two objective functions: coverage and diversity. For the coverage objective function, k-means clustering, knowledge-based, and co-burst-based topical coverage functions are examined. The results are again better than the conventional methods and show greater robustness in realistic situations where the word sequence and order varied. Since a topic schema can be represented by a word set, extracting topics will benefit text-based works such as searching for documents or sections of topical interest. The idea is presented by an exemplar topical search system that visualizes the topics and allows the user to interactively find relevant documents.

전자적 형태의 문서출판이 급증하는 현시대에 인간의 지식 집약적 작업을 지원하기 위해서는 믿을만한 자동 문서 분석이 필요하다. 이를 위한 연구주제로써 자동 문서 요약과 토픽 기반 검색이 다양한 가능성을 보이고 있다. 본 연구는 이러한 연구 주제 내에서 토픽의 순차적 나열로서 표현되는 저자의 인지적 의사소통 과정을 고려할 것을 제안한다. 문서의 일부분에서 토픽을 나타내는 단어들의 집합은 특정 담화가 이루어지는 지점의 주제를 나타내는 스키마를 가리키는 역할을 한다고 볼 수 있다. 이러한 토픽을 나타내는 단어들을 문서에서 추출할 수 있다면 자동 문서 요약이나 문서 검색과 같은 연구에서 유용하게 사용될 수 있을 것이다. 본 연구는 스키마를 나타내는 단어들을 찾기 위해 코-버스트 기반 토픽 단어 추출 기법을 제안한다. 버스트 분석은 문서의 다른 부분보다 특정 부분에서 집중적으로 나타나는 패턴을 파악하는 데 사용된다. 이렇게 각 단어의 집중적 구간, 즉, 버스트 구간을 찾아낸 후 공통된 구간을 기준으로 단어들을 묶으면 이 단어 집합이 해당 구간의 토픽 스키마를 표현하는데 사용될 수 있다. 이와 더불어 지식베이스 기반 토픽 단어 추출 기법을 함께 제안하여 그 성능을 평가한다. 최신 연구들과의 비교 평가에서 본 논문에서 제안하는 기법은 이들을 능가하는 성능을 보여 코-버스트 기반으로 추출된 스키마 단어들이 좋은 효과를 나타냄을 보였다. 또한 다중 문서 요약 문제를 해결하기 위해 요약 문제를 다중 목적함수 최적화 문제로 정의하고 내용반영정도(Coverage)와 다양성정도(Diversity)라는 두 개의 목적함수를 정의하였다. 내용반영정도 목적함수는 본 논문에서 제안하는 토픽 단어 추출 기법들을 통해 각각 향상된 형태의 목적함수로 정의되었으며, 비교 평가를 통해 본 논문에서 제안하는 기법이 다른 최신 기법들과 비교하여 다양한 형태의 문서가 존재하는 실제 상황에서 좋은 성능을 나타낼 수 있음을 보였다. 토픽 스키마는 단어의 집합으로 표현될 수 있으며 이렇게 표현된 토픽 스키마 단어들은 문서 검색이나 문서 내 원하는 내용 검색 등 다양한 텍스트 기반 작업들에 도움이 될 수 있다. 본 논문의 마지막 장에서는 이러한 적용이 가능함을 보이기 위해 토픽을 시각화하고 이를 기반으로 한 인터렉티브 검색 시스템의 프로토타입을 구현함으로써 본 논문이 제안하는 방식이 인터렉티브 시스템에 적용될 수 있는 가능성과 이를 통해 사람의 인지적 과정이 지원될 수 있음을 제시하였다.

서지기타정보

서지기타정보
청구기호 {DKSE 20011
형태사항 v, 91 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정치훈
지도교수의 영문표기 : Wan Chul Yoon
지도교수의 한글표기 : 윤완철
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 84-89
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서