As the Internet and computers become commodities in our daily lives, electronic communications such as e-mails are rapidly substituting traditional postal mails. Although e-mails are more convenient, letters still have many positive features. The ability to handle "anonymous recipient" is one of them. This thesis proposes a software agent that performs the routing task as human beings for the anonymous recipient e-mails. The software agent named "TWIMC (To Whom It May Concern)" receives anonymous recipient e-mails, analyzes it, and then routes the e-mail to the most qualified person (i.e., e-mail account) inside the organization. We view each e-mail account as a category (or class) and everyday e-mail collections for each e-mail account provide an excellent source of training data. We also propose a novel algorithm that generates a robust and efficient classifier, named Set-oriented GA Classifier System (SCS). It uses set representation for the classifier and inverted file for fast fitness evaluation. We compare SCS with Support Vector Machine (SVM), which recently draws interest of text categorization researchers. The result shows that the SCS outperforms SVM under noisy environment and TWIMC can be used in the real situation.
최근 인터넷 사용의 확산과 함께 이메일은 업무와 개인 생활에 있어서 빼놓을 수 없는 중요한 통신 수단이 되었다. 폭증하는 이메일의 사용과 더불어 사용이 편리하고 지능적인 이메일 서비스에 대한 요구 또한 급증하게 되었는데, 본 연구에서는 이러한 새로운 이메일 서비스를 제안하고 이의 구현 방안에 대하여 논의하였다.
본 연구에서 제안하는 새로운 이메일 서비스는 익명의 수신자 메일을 기계 학습 기법을 적용하여 가장 적합한 수신자에게 전달해 주는 기능을 한다. 이때 기존 사용자들이 받아온 이메일은 기계 학습의 훈련 데이터로 사용되고, 한 사용자의 이메일 계정은 각각 기계 학습에서 하나의 분류에 해당된다. 이러한 시스템은 기업의 콜 센터나 기업 내부의 정보 흐름을 원활하게 해주는 인트라넷에, 지능적인 기능을 추가시키는 핵심적인 역할을 할 수가 있다.
본 연구는 또한 이러한 서비스의 구현을 위한 새로운 알고리즘을 제안하였다. 제안된 알고리즘은 집합표현을 기반으로 하는 유전자 알고리즘 분류 시스템(SCS)으로, 많은 잡음 데이터가 있고 고려해야 할 데이터의 특성이 많은 경우에도 높은 성능을 나타낼 수 있다. 집합 표현을 기반으로 하기 때문에 집합으로 표현이 가능한 이메일 데이타를 다루는데 적합하고, 효율적인 적응도 계산(fitness function evaluation)을 위한 역 테이블(inverted table)을 사용해 수행속도를 빠르게 하였다. 제안된 알고리즘의 정확도를 비교하기 위해 최근에 계발된 SVM(Support Vector Machine) 알고리즘과 실제 이메일을 이용하여 그 성능을 비교하였다. 비교 결과 제안된 알고리즘이 우수한 정확도를 보이는 것으로 나타났다.