This thesis considers the binary classification of functional data collected in the form of curves. In particular, we assume the situation when the functional predictors are highly mixed over the entire domain, so that global discriminant analysis that is based on the entire domain is not effective. To address this problem, this thesis proposes an interval-based classification method for functional data; the informative intervals for classification are selected and used for separating the curves into two classes. The proposed method, called functional logistic regression with fused lasso penalty (FLR-FLP), combines the functional logistic regression as a classifier and the fused lasso penalty for selecting discriminant segments. FLR-FLP automatically selects the most informative segments of functional data for classification via the fused lasso penalty, and simultaneously classifies the data based on the selected segments via the functional logistic regression. The effectiveness of the proposed method is demonstrated with simulated and real data examples.
본 연구는 커브의 형태로 되어있는 함수형 데이터의 클래스를 분류하는 데에 초점을 맞추고 있다. 특히 본 논문에서는 전체 정의역 내에서 함수형 예측 변수들이 심하게 혼합되어 있어 전체 정의역 내에서 클래스 분류를 수행하는 전역 판별 분석 (global discriminant analysis)과 같은 방법론들이 효과적으로 클래스 분류를 할 수 없는 상황을 가정하고 있다. (실제로 이러한 문제는 Kim et al. (2014)에서 찾아볼 수 있다.) 본 연구에서는 이러한 문제를 다루기 위해 함수형 데이터를 효과적으로 분류하기 위한 많은 정보를 담고 있는 구간을 찾아 그 구간 내에서 분류를 하는 구간 기반의 함수형 데이터 분류 모델을 제안한다. 본 연구의 제안 모델인 fused lasso 벌점을 가진 함수적 로지스틱 회귀모형 (Functional Logistic Regression with Fused Lasso Penalty)은 클래스 분류를 위한 함수적 로지스틱 회귀모형에 의미 있는 구간을 찾기 위한 fused lasso 벌점을 결합한 모델로써 fused lasso 벌점을 통해 함수형 데이터를 분류하기 위한 많은 정보를 담고 있는 구간을 자동적으로 찾아주고, 그와 동시에 함수적 로지스틱 회귀모형을 통해 선택된 구간 내에서 데이터를 분류해준다는데 의의를 지니고 있다.
본 연구에서는 제안된 모델의 성능을 평가하기 위해 두가지 종류의 시뮬레이션 데이터와 Tecator 사에서 제공한 분광계 데이터를 이용하여 컴퓨터 실험을 수행하였으며 함수형 데이터 분류를 위한 서포트 벡터 머신과 기존에 구간을 이용한 분류 모델로 제안된 interval based classifier (Kim et al., 2014)와 functional segment discriminant analysis (Li and Yu, 2008)와의 비교 실험을 통해 제안 모델의 우수성을 보여주었다.