Block-wise missing data refers to instances where data is missing in one variable group within a dataset consisting of two variable groups. Such data commonly arises during the integration process of data from multiple sources into a unified dataset. Applying canonical correlation analysis, commonly used with complete data, to block-wise missing data poses inherent challenges. To address this issue, our study proposes a tailored imputation method called MCCO (Multiple Correlation Coefficient Order) for block-wise missing data. Our approach employs multiple correlation coefficients to determine the imputation order and introduces a similarity measure inspired by existing PMM algorithms to select the closest donors. Additionally, we propose methods to determine key algorithm parameters, such as the number of close donors and proximity parameters, using multiple correlation coefficients and k-fold cross-validation, reflecting the characteristics of the given data. We evaluate the performance of our proposed MCCO method through real data and simulations, observing its competitive performance compared to listwise deletion, a method commonly used with block-wise missing data, and various existing PMM algorithms.
블록 단위 누락 데이터는 두 변수 그룹으로 이루어진 데이터에서 하나의 변수 그룹에서 누락 값이 발생한 데이터를 의미한다. 이러한 데이터는 여러 소스에서 데이터를 하나의 데이터셋으로 통합하는 과정에서 주로 발생한다. 주로 완전한 데이터에서 사용하는 정준 상관 분석을 이러한 블록 단위 누락 데이터에 적용하는 것은 일반적으로 어려운 과제이다. 이 문제를 해결하기 위해 본 연구에서는 블록 단위 누락 데이터에 대한 맞춤형 예측 평균 매칭 방법을 제안한다. 우리의 접근 방식은 다중 상관 계수를 사용하여 대체 순서를 결정하고, 기존 예측 평균 대응법 알고리즘에서 영감을 받아 가장 가까운 기부자를 선택하기 위한 유사성 측정 방법을 제안한다. 또한 다중 상관 계수와 k-겹 교차 검증을 사용하여 가까운 기부자의 개수와 근접성 매개 변수 등 알고리즘의 주요 매개 변수 값을 주어진 데이터의 특성을 반영하여 결정하는 방법을 제안한다. 우리는 실제 데이터와 시뮬레이션을 통해 우리가 제안한 예측 평균 대응법의 성능을 평가하고, 블록 단위 누락 데이터에 주로 사용되는 완전 제거법과 여러 기존 예측 평균 대응법 알고리즘들과의 비교를 통해 경쟁력 있는 성능을 관찰한다.