서지주요정보
Text mining based on conditional probability output networks = 조건부 확률망에 기초한 텍스트 마이닝
서명 / 저자 Text mining based on conditional probability output networks = 조건부 확률망에 기초한 텍스트 마이닝 / Harvey Rosas.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022938

소장위치/청구기호

학술문화관(문화관) 보존서고

DMA 11011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Multi-labeled classi cation presents a challenging problem in data mining. Furthermore, it has be- come a very important research eld due to the need of handling large scale databases, with some of them having an incredible amount of information in text format. Thus, ecient methods and automatic tools had recently gained relevance. This work focuses on the e orts to improve the performance of the automatic text multi-categorical multi-labeled classi cation using SVM classi ers. We introduce a new method of multi-labeled classi cation based on a class probability output network called 2 layer Conditional Probability Output Networks. With the objective of re ning the classi cation accuracy, the output of the support vector machine is considered in order to get a complete distribution inde- pendent algorithm, both kernel and probability distribution parameters are nely tuned to improve its performance, furthermore a new method for multi-labeled classi cation based on a complete distribution and an uncertainty measure is proposed. Experiments are done using 2 di erent data frameworks for classi cation problems: multimedia data ltering and Reuters-21578 modapte as benchmark data-sets, the e ectiveness of the method is compared in terms accuracy and micro and macro averaging F1- mea- sure.

다중 라벨 분류는 데이타 마이팅에서 도전적인 문제이다. 더 나아가, 텍스트 형식으로 된 상당한 양의 정보를 가진 데이터베이스를 포함하여, 대용량 데이터베이스 처리의 필요성에 의해 다중 라벨 분류는 매우 중요한 연구분야가 되었다. 따라서, 효율적인 방법과 자동적인 도구가 최근에 중요하게 되었다. 본 연구는 SVM 분류기를 이용한 다중 범주형 다중 라벨의 자동적인 텍스트 분류의 성능 향상에 노력을 집중한다. 우리는 2개 층 CPON (Conditional Probability Output Network) 이라 불리는 클래스 확률 값 출력망 모형에 기초하여 다중 라벨 분류의 새로운 방법을 소개한다. 분류의 정확도를 높이기 위한 목적으로 SVM의 출력값을 고려하여 완전히 분포 독립적인 알고리즘을 얻게 되며, 성능을 향상시키기 위해 커널과 확률 분포 파라미터가 세밀하게 조정된다. 더 나아가 완전 분포와 불확실성 측도에 기초한 새로운 다중 라벨 분류 기법이 제안된다. 실험은 분류 문제에 대한 두 가지 다른 자료 체계를 사용하여 수행된다: 멀티미디어 자료 필터링과 Reuters-21578 ModApte가 벤치마크 자료로서, 정확도, 그리고 마이크로 및 매크로 평균 F1 측도 관점에서 제시된 방법의 효율성이 비교된다.

서지기타정보

서지기타정보
청구기호 {DMA 11011
형태사항 v, 45 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 로사스 하비
지도교수의 영문표기 : Rhee-Man Kil
지도교수의 한글표기 : 길이만
공동교수의 영문표기 : Sung-Ho Kim
공동교수의 한글표기 : 김성호
수록잡지명 : "Automatic Media Data Rating Based on Class Probability Output". IEEE Transactions on Consumer Electronics, v. 56, no. 4, (2010)
학위논문 학위논문(박사) - 한국과학기술원 : 수리과학과,
서지주기 References : p.33-35
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서