프로그래머의 동작 순서 정보를 이용하는 N-그램 모델 기반의 변경 추천 시스템 = N-gram model based change recommendation system that utilizes information of programmers' interaction order
발행사항 [대전 : 한국과학기술원, 2017].
Goal of change recommendation systems is reduce time spent on unnecessary code navigation, thereby increase programmers’ productivities. Many systems recommend files or functions to edit by mining association rules. However, there is a shortcoming that these systems produce recommendation with low accuracy. In this paper, we suggest N-gram model using time-ordered interaction data based on the insight that order information of interactions would also help characterizing which files or functions to edit. To evaluate the additional context about order information and N-gram model, we developed N-gram model based recommendation system and conducted two comparative simulations: one with ROSE, an existing edit-based recommendation system and the other with MI, which uses both view and edit histories for recommendation. For these simulations, interaction history data accumulated in Eclipse Bugzilla are used. The simulations demonstrate that our system recommends files or functions to edit with 2.18 times higher F1-score than ROSE and 1.22 times higher F1-score than MI. These results tell us that using not only interaction data themselves but also their orders for change recommendation results in higher accuracy.

변경 추천 시스템의 목적은 프로그래머가 코드 네비게이션에 소모하는 시간을 줄여 생산성을 증대시켜주는 것이다. 많은 시스템들은 리비전 히스토리 또는 동작 히스토리에서 연관규칙을 찾아내어 프로그래머에게 변경할 파일 또는 함수를 추천해준다. 하지만 연관규칙 분석법을 이용한 많은 변경 추천 시스템의 추천 정확도가 높지 않은 단점이 있다. 본 논문에서 우리는 동작 정보 외에도 동작 순서 정보 역시 추천할 파일이나 함수를 특징 짓는데 도움을 줄 것이라는 직관에 따라 시간순서대로 정렬된 동작 기록을 이용하는 N-gram 모델을 제시한다. 본 논문에서는 동작 순서 정보의 영향력을 평가하기 위해, 우리는 이를 이용하는 N-gram 모델을 기반으로 한 추천 시스템을 구현하였고, 동작 정보 중 변경 정보만을 사용하는 시스템인 ROSE와, 그리고 변경 정보와 관찰 정보 두 가지를 사용하는 시스템인 MI와 각각 비교하는 시뮬레이션을 수행하였다. 실험을 통해 우리는 다음과 같은 결과를 얻었다. 추천모델을 만들기 위한 데이터가 충분 할 때, N-그램 모델 기반의 변경 추천은 N=6 또는 N=7일 때 가장 높은 정확도를 보인다. N의 크기가 작을때는 파일레벨의 추천이 재현율이 높으나 N의 크기가 커짐에 따라 메소드 수준의 추천의 재현율이 역전하여 정밀도와 재현율 모두에서 앞서게 된다. 그리고 ROSE와 MI의 설정에 맞추어 각각 비교한 결과 NCRF가 두 도구 보다 더 높은 추천 정확도를 보였다. 이는 문맥을 구성하는 동작의 종류에 관계 없이 동작 순서를 고려하여 추천하는 것이 동작 순서를 고려하지 않는 것보다 높은 정확도를 보인다는 결론을 제시한다.


일반주기 저자명의 영문표기 : Tae-hyun Kim
지도교수의 한글표기 : 강성원
지도교수의 영문표기 : Sungwon Kang
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
