Within the last decade, machine learning (ML) has become the cornerstone of modern industries, driving a broad range of innovations. This thesis focuses on the “Learning from data” pipeline which supports such innovation. This pipeline consists of two main building blocks: 1) data storage/management system and 2) learning algorithms that extract key features from the collected data. Unfortunately, the performances of these building blocks are degraded by two practical issues: inevitable failure events and adversarial attacks. Providing reliability and robustness of “Learning from data” framework against such practical issues is the main objective of this dissertation.
In the first part, we suggest clustered distributed storage system (C-DSS) which reflects the clustered nature of cloud storage, and propose theoretically optimal coding techniques for enabling the reliability of C-DSS against node failures, by leveraging tools from coding and information theory. In the second part, we suggest a framework called Election Coding, which guarantees the robustness of communication efficient distributed learning algorithms against Byzantine attacks. In the third part, we propose a data augmentation scheme called GAN-mixup, which improves the robustness of learning systems against adversarial attacks, by making use of conditional GANs to learn the class-conditional manifolds and generate data points in-between the manifolds of different data classes.
지난 10년간 다양한 산업계에서 변화를 주도하고 있는 주체는 다름 아닌 기계학습이다. 이 논문에서는 이러한 혁신을 가능케 한 "데이터로부터의 학습" 프레임워크의 구성 요소인 데이터 저장/관리 시스템과 학습 알고리즘에 주목한다. 구체적으로 해당 프레임워크의 성능을 저하시키는 두 가지 요소 - 내부 결함 및 외부의 악의적 공격 - 에 대처하는 안정적이고 강인한 시스템 설계를 목표로 한다.
첫번째 파트에서는 클라우드 저장소의 구조를 반영한 군집형 분산 저장 시스템을 모델링하고, 해당 시스템에서 노드들이 빈번하게 망가지는 상황에서 안정적으로 정보를 저장할 수 있는 최적 부호화 기술을 제안한다. 두번째 파트에서는 노드 간 통신량을 최소한으로 갖는 분산 학습 시스템에서, 비잔틴 공격을 방어할 수 있는 부호화 기법을 제안한다. 세번째 파트에서는 학습 시스템의 성능을 악화시키기 위해 악의적으로 데이터를 생성하는 공격에 대해 방어하기 위하여, 적대적 생성 신경망을 활용한 데이터 증강 기법을 제안한다.