In this paper, we introduce a new matrix weighting scheme that is applied to a term-document matrix, which is an input matrix of documents required for running the $Na\"{i}ve$ Bayes method, as an effort to improve the accuracy of the $Na\"{i}ve$ Bayes method. We first examine two existing weighting strategies: Term Frequency - Inverse Document Frequency weighting and Golden Words weighting. Next, we present the new weighting method that incorporates the two existing methods with a slight modification in the algorithm. Then, we compare the accuracy of the $Na\"{i}ve$ Bayes method when the three different weighting schemes are applied to the term-document matrix. It is shown through simulation that the new method yields a greater degree of accuracy than the other two weighting methods. In addition, we set different values to the parameter in the new method and examine the change in accuracy. Finally, we find the optimal value of the parameter that maximizes the accuracy of the Na\"ive Bayes method.
이 논문에서는 나이브베이즈 방법의 정확도를 높이기 위하여 나이브베이즈 방법의 입력 문서 데이터를 행렬로 표현한 단어-문서 행렬에 가중치를 주는 새로운 방법을 소개하였다. 먼저 단어 빈도 - 역문서 빈도 가중치와 핵심 단어 가중치를 살펴보고 이 두 방법을 바탕으로 공식을 약간 변형하여 새로운 행렬 가중치 방법을 제시하였다. 그리고 제시한 방법과 먼저 살펴본 두 가지의 방법을 나이브베이즈 방법에 적용하여 문서를 분류한 후 정확도를 비교해보았다. 제안한 가중치 방법을 적용한 나이브베이즈 방법의 정확도가 위의 두 가중치 방법을 적용한 나이브베이즈 방법의 정확도보다 꽤 높다는 것을 시뮬레이션을 통해 보였다. 추가적으로 새로운 가중치 방법의 변수가 변함에 따른 정확도의 차이를 알아보고 그 중에서 나이브베이즈 방법의 정확도를 최대화하는 최적변수를 찾아보았다.