Multi-labeled classication presents a challenging problem in data mining. Furthermore, it has be-
come a very important research eld due to the need of handling large scale databases, with some of
them having an incredible amount of information in text format. Thus, ecient methods and automatic
tools had recently gained relevance. This work focuses on the eorts to improve the performance of
the automatic text multi-categorical multi-labeled classication using SVM classiers. We introduce a
new method of multi-labeled classication based on a class probability output network called 2 layer
Conditional Probability Output Networks. With the objective of rening the classication accuracy,
the output of the support vector machine is considered in order to get a complete distribution inde-
pendent algorithm, both kernel and probability distribution parameters are nely tuned to improve its
performance, furthermore a new method for multi-labeled classication based on a complete distribution
and an uncertainty measure is proposed. Experiments are done using 2 dierent data frameworks for
classication problems: multimedia data ltering and Reuters-21578 modapte as benchmark data-sets,
the eectiveness of the method is compared in terms accuracy and micro and macro averaging F1- mea-
sure.
다중 라벨 분류는 데이타 마이팅에서 도전적인 문제이다. 더 나아가, 텍스트 형식으로 된 상당한 양의 정보를 가진 데이터베이스를 포함하여, 대용량 데이터베이스 처리의 필요성에 의해 다중 라벨 분류는 매우 중요한 연구분야가 되었다. 따라서, 효율적인 방법과 자동적인 도구가 최근에 중요하게 되었다. 본 연구는 SVM 분류기를 이용한 다중 범주형 다중 라벨의 자동적인 텍스트 분류의 성능 향상에 노력을
집중한다. 우리는 2개 층 CPON (Conditional Probability Output Network) 이라 불리는 클래스 확률 값 출력망 모형에 기초하여 다중 라벨 분류의 새로운 방법을 소개한다. 분류의 정확도를 높이기 위한 목적으로 SVM의 출력값을 고려하여 완전히 분포 독립적인 알고리즘을 얻게 되며, 성능을 향상시키기 위해 커널과 확률 분포 파라미터가 세밀하게 조정된다. 더 나아가 완전 분포와 불확실성 측도에 기초한 새로운 다중 라벨 분류 기법이 제안된다. 실험은 분류 문제에 대한 두 가지 다른 자료 체계를 사용하여 수행된다: 멀티미디어 자료 필터링과 Reuters-21578 ModApte가 벤치마크 자료로서, 정확도, 그리고 마이크로 및 매크로 평균 F1 측도 관점에서 제시된 방법의 효율성이 비교된다.