Enhancing lexical representation of test coverage for failure clustering = 다중 실행 오류 클러스터링을 위한 테스트 커버리지의 어휘적 표현 향상
서명 / 저자 Enhancing lexical representation of test coverage for failure clustering = 다중 실행 오류 클러스터링을 위한 테스트 커버리지의 어휘적 표현 향상 / Juyeon Yoon.
발행사항 [대전 : 한국과학기술원, 2022].
MCS 22027

Failure clustering aims to group multiple test failures based on shared root causes, helping developers to comprehend and debug each root cause (i.e., the underlying fault) in isolation. Clustering of failing test executions requires distances between those executions, for which distance measures between coverage vectors are widely used. Lexical representation of coverage has been suggested as an alternative, representing each structural element covered by an execution with the lexical tokens in the element. This paper investigates whether the granularity of the lexical representation affects the effectiveness of the failure clustering. We evaluate varying levels of tokenisation granularity by using them for clustering coexisting real-world test failures in Defects4J benchmark. Our results show that the traditionally adopted subtokenisation can actually deconstruct larger meaningful semantic token units, resulting in suboptimal clustering. We further suggest a novel tokenisation strategy based on the semantically similar line groups.

다중 실행 오류 클러스터링은 여러 개의 실패하는 테스트 실행을 원인이 된 결함에 따라 그룹화하는 기법 으로, 이후 개발자들이 하나의 결함에 집중하여 분석을 수행할 수 있도록 한다. 복수의 테스트 실행 오류를 클러스터링하기 위해서는 각 실행 사이의 거리를 측정할 수 있어야 하며, 이를 위해 일반적으로 수집된 커버 리지가 사용된다. 커버리지의 어휘적 표현은 테스트에서 실행한 프로그램 구성 요소를 이에 해당하는 소스 코드로 표현함으로써 기존 커버리지 벡터의 대안으로 사용될 수 있다. 이 논문에서는 커버리지의 어휘적 표현을 생성하는 데에 있어 소스 코드를 토큰화하는 단위가 다중 실행 오류 클러스터링 성능에 어떤 영향 이 있는지를 관찰하기 위해, 실제 복수의 결함을 포함하는 Defects4J 벤치마크를 기반으로 다양한 토큰화 단위가 적용된 어휘적 표현을 평가한다. 기존에는 식별자를 더 작은 부분으로 쪼개는 하위 토큰화 기법이 일반적으로 도입되었으나, 하위 토큰화 기법이 소스 코드의 고유한 의미를 해체하여 다중 실행 오류 클러스 터링의 성능을 저하시킴을 실험적 결과를 통해 확인한다. 또한, 의미적으로 유사한 코드 줄 집합에 기반한 토큰화 기법을 새롭게 제시한다.


청구기호 {MCS 22027
형태사항 iii, 23 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤주연
지도교수의 영문표기 : Shin Yoo
지도교수의 한글표기 : 유신
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 20-21





