서지주요정보
Multiple imputation using predictive mean matching for canonical correlation analysis with block-wise missing data = 블록별 결측자료에서 정준상관분석을 위한 예측 평균 대응법을 사용한 다중대체
서명 / 저자 Multiple imputation using predictive mean matching for canonical correlation analysis with block-wise missing data = 블록별 결측자료에서 정준상관분석을 위한 예측 평균 대응법을 사용한 다중대체 / Yunji Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042012

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MIE 24005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Block-wise missing data refers to instances where data is missing in one variable group within a dataset consisting of two variable groups. Such data commonly arises during the integration process of data from multiple sources into a unified dataset. Applying canonical correlation analysis, commonly used with complete data, to block-wise missing data poses inherent challenges. To address this issue, our study proposes a tailored imputation method called MCCO (Multiple Correlation Coefficient Order) for block-wise missing data. Our approach employs multiple correlation coefficients to determine the imputation order and introduces a similarity measure inspired by existing PMM algorithms to select the closest donors. Additionally, we propose methods to determine key algorithm parameters, such as the number of close donors and proximity parameters, using multiple correlation coefficients and k-fold cross-validation, reflecting the characteristics of the given data. We evaluate the performance of our proposed MCCO method through real data and simulations, observing its competitive performance compared to listwise deletion, a method commonly used with block-wise missing data, and various existing PMM algorithms.

블록 단위 누락 데이터는 두 변수 그룹으로 이루어진 데이터에서 하나의 변수 그룹에서 누락 값이 발생한 데이터를 의미한다. 이러한 데이터는 여러 소스에서 데이터를 하나의 데이터셋으로 통합하는 과정에서 주로 발생한다. 주로 완전한 데이터에서 사용하는 정준 상관 분석을 이러한 블록 단위 누락 데이터에 적용하는 것은 일반적으로 어려운 과제이다. 이 문제를 해결하기 위해 본 연구에서는 블록 단위 누락 데이터에 대한 맞춤형 예측 평균 매칭 방법을 제안한다. 우리의 접근 방식은 다중 상관 계수를 사용하여 대체 순서를 결정하고, 기존 예측 평균 대응법 알고리즘에서 영감을 받아 가장 가까운 기부자를 선택하기 위한 유사성 측정 방법을 제안한다. 또한 다중 상관 계수와 k-겹 교차 검증을 사용하여 가까운 기부자의 개수와 근접성 매개 변수 등 알고리즘의 주요 매개 변수 값을 주어진 데이터의 특성을 반영하여 결정하는 방법을 제안한다. 우리는 실제 데이터와 시뮬레이션을 통해 우리가 제안한 예측 평균 대응법의 성능을 평가하고, 블록 단위 누락 데이터에 주로 사용되는 완전 제거법과 여러 기존 예측 평균 대응법 알고리즘들과의 비교를 통해 경쟁력 있는 성능을 관찰한다.

서지기타정보

서지기타정보
청구기호 {MIE 24005
형태사항 iv, 31 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김윤지
지도교수의 영문표기 : Jeongyoun Ahn
지도교수의 한글표기 : 안정연
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 29-31
주제 Hot deck imputation
Proper imputation
Imputation order
Multiple correlation coefficient
핫덱 대체
적절 대체
대체 순서
다중상관계수
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서