This paper proposes three methods to create automatic domain knowledge structure from multiple documents, and also evaluates the performance with each other. The first method is named as Dependent Integration of Multiple Documents that creates domain knowledge structure by integrating multiple documents into a single document and then extracting key concepts and their interrelationships on it. The second method is named as Independent Integration of Multiple Documents that creates domain knowledge structure by extracting the interrelationships among the key concepts for each document on an integrated single document. The third method is named as Integration of Knowledge Networks that creates domain knowledge structure by merging knowledge structures. In particular, Integration of Knowledge Networks makes it possible to fuse with diverse knowledge structures created by the four co-relation analysis between key concepts: Sentence co-occurrence Similarity (SS), Paragraph co-occurrence Similarity (PS), Sentence Cosine Similarity (SCS), and Paragraph Cosine Similarity (PCS). Integration of Knowledge Networks also has the best performance of three kinds of methods to create domain knowledge structure in terms of processing time because it generates domain knowledge structure through the convergence between content knowledge structures. However, Dependent Integration of Multiple Documents has the worst performance of the three types of methods to create domain knowledge structure because it generates domain knowledge structure by integrating multiple documents into a huge single document and then extracting important concepts and their interrelationships on it. Independent Integration of Multiple Documents also has the bad performance because it creates domain knowledge structure by extracting the interrelationships among the important concepts for each document on an integrated single document. Thus, Independent Integration of Multiple Documents leads to a considerable delay time. In this research, we conducted the experiment to examine the similarity between learner’s knowledge structure and automatic domain knowledge structure through each proposed approach using the proposed similarity measure [α] with similarity measure used in KNOT software. The results from the experiment showed that Integration of Knowledge Networks is the most similar of the proposed approaches, and the two similarity measures produced the same results. We also observed how the proposed approaches for three research questions were reflected in creating automatic domain knowledge structure. The first research question is how to represent the characteristics of short-length and long-length document on domain knowledge structure. The proposed approach for the first research question is named as Term Frequency-Inverse Document Frequency (TF-IWF) based on the number of words for a document, and the result of the test showed that the characteristic of document length was well represented on domain knowledge structure. The second research question is how to represent the characteristics of different weighted documents on domain knowledge structure. The proposed approaches for the second research question is named as TF-Differential Weight that gives different weight to key concepts of each document and Differential Weight that gives different weight to both key concepts and their interrelationships of each document. The result of the test showed that the characteristics of different weighted documents were well represented on domain knowledge structure. The third research question is how to represent the characteristics of the same weighted documents on domain knowledge structure. The proposed approach for the third research question is named as TF-Equal Weight that gives the same weight to key concepts of each document. The result of the test showed that the characteristics of the same weighted documents were well represented on domain knowledge structure. As a result, the proposed approaches for automatically cognitive domain knowledge structure creation from multiple documents are similar to learners’ knowledge structure, and open new opportunities to improve their learning ability in e-learning environment by recommending them optimized learning documents and supporting learning activities on domain knowledge structure.
본 논문은 복수 개의 학습 문서 상에서 도메인 지식 구조를 자동 생성하기 위한 3가지 방법을 제안하고, 이들의 성능을 서로 비교하고 분석한다. 도메인 지식 구조를 생성하기 위한 첫 번째 방법은 각 학습 문서를 통합된 하나의 단일 문서로 통합한 다음, 통합된 하나의 문서 상에서 핵심 개념들과 그들의 연관 관계를 추출하는 “Dependent Integration of Multiple Documents”이다. 도메인 지식 구조를 생성하기 위한 두 번째 방법은 각 학습 문서의 핵심 개념에 대한 정보는 그대로 유지하고, 핵심 개념 간의 연관 관계는 통합된 단일 문서 상에서 추출하는 “Independent Integration of Multiple Documents”이다. 도메인 지식 구조를 생성하기 위한 세 번째 방법은 각 학습 문서의 지식 구조끼리 융합하는 “Integration of Knowledge Networks”이다. 특히, 세 번째 방법인 “Integration of Knowledge Networks”는 각 학습 문서에서 4가지의 연관 관계 분석 기법인 Sentence co-occurrence Similarity (SS), Paragraph co-occurrence Similarity (PS), Sentence Cosine Similarity (SCS), Paragraph Cosine Similarity (PCS)를 통해 생성된 다양한 지식 구조끼리의 융합을 가능하게 한다. 그리고 본 논문에서 제안한 3가지 도메인 지식 구조 생성 방법 중 세 번째 방법인 “Integration of Knowledge Networks”가 각 학습 문서의 지식 구조끼리 융합해서 도메인 지식 구조를 생성하기 때문에 Processing Time의 관점에서 성능이 가장 좋으며, 첫 번째 방법인 “Dependent Integration of Multiple Documents”는 각 학습 문서를 거대한 단일 문서로 통합한 후 핵심 개념과 핵심 개념 간의 연관 관계 모두 추출해서 도메인 지식 구조를 생성하기 때문에 Processing Time의 관점에서 가장 좋지 않다. 하지만 도메인 지식 구조를 생성할 때의 두 번째 방법인 “Independent Integration of Multiple Documents” 또한 핵심 개념 간의 연관 관계를 첫 번째 방법과 동일하게 통합된 단일 문서 상에서 추출하기 때문에 통합된 문서가 길수록 상당한 Processing Time의 지연을 초래한다. 본 논문의 실험은 크게 학습자 지식 구조와 기계적으로 자동 생성되는 지식 구조에 대해 수행한다. 첫 번째 실험은 복수 개의 학습 문서 상에서 기계적으로 자동 생성되는 도메인 지식 구조와 학습자 지식 구조 간의 유사도를 기존의 KNOT 프로그램에서 사용되고 있는 Similarity Measure와 본 논문에서 제안한 Similarity Measure [α]를 사용해서 측정한다. 이에 대한 실험 결과는 “Integration of Knowledge Networks”가 학습자의 지식 구조와 가장 유사했으며, 지식 구조 간의 유사도를 측정하는 두 방법 모두 동일한 결과를 산출했다. 두 번째 실험은 복수 개의 문서 상에서 도메인 지식 구조를 생성할 때의 3가지 이슈에 대해 본 논문에서 제안한 방법들이 어떻게 반영되는지 관찰한다. 첫 번째 이슈인 짧은 문서와 긴 문서의 특징을 도메인 지식 구조에 반영하는 방법으로 각 학습 문서의 Word 수를 기반한 “Term Frequency-Inverse Word Frequency (TF-IWF)” 기법을 제안하고 실제 TF-IWF가 짧은 문서와 긴 문서의 특징을 해당 도메인 지식 구조에 잘 표현됨을 알 수 있었다. 두 번째 이슈인 각 학습 문서들이 서로 다른 가중치를 가질 때, 이를 도메인 지식 구조에 반영하는 방법으로 핵심 개념에 가중치를 부여하는 “TF-Differential Weight” 기법과 핵심 개념과 핵심 개념 간의 연관 관계 모두 가중치를 부여하는 “Differential Weight” 기법을 제안하고, 실제 각 기법들이 해당 도메인 지식 구조에 잘 표현됨을 알 수 있었다. 마지막 세 번째 이슈인 각 학습 문서들이 서로 동일한 가중치를 가질 때, 이를 도메인 지식 구조에 반영하는 방법으로 “TF-Equal Weight” 기법을 제안하고, 실제 “TF-Equal Weight” 기법이 해당 도메인 지식 구조에 잘 표현됨을 확인할 수 있었다. 결과적으로 본 논문에서 제안된 다양한 접근 방법들을 통해 복수 문서 상에서 기계적으로 자동 생성된 도메인 지식 구조는 학습자의 지식 구조와 유사했으며, 이러한 도메인 지식 구조는 이러닝 환경에서 학습자가 학습한 후 생성된 지식 구조와 유사한 지식 구조 및 연관된 지식 구조 분석을 통해 학습자에게 최적화된 학습 문서를 추천하고 학습 활동을 지원해줌으로써 학습자의 학습 능력을 향상시킬 수 있는 가능성을 제시한다.