Recent machine learning (ML) methods have demonstrated impressive and versatile performance across a wide
range of applications, including image and natural language processing. Fascinated by the performance, previous
works attempted to apply ML approaches for safety-critical applications such as user authentication. However,
numerous studies have shown that ML methods are vulnerable to adversarial behavior and not proper for those
safety-critical tasks. The vulnerability attracted lots of researchers’ interest, and many efforts have been made to
devise attack and defense strategies.
However, the majority of research focuses on feed-forward neural networks (FNN), including Multi-layer
perceptrons (MLP), Convolutional Neural Networks (CNN), and Transformer. In contrast, Recurrent Neural
Networks have received little research attention. We contend that RNN’s robustness is also crucial and needs to
be studied, because many safety-critical applications, such as autonomous driving and medical monitoring, rely
on RNN. By studying RNN’s robustness, we discovered unique challenges of attacks on RNNs and propose three
novel attacks to overcome them. The attacks make use of temporal dependence and hidden state transition, both of
which are features of the RNN’s input and the RNN itself.
The first attack is a new evasion attack for RNN. The goal of an evasion attack is to alter the output of an ML
model during test-time. To achieve the manipulation, this kind of attack slightly modifies the test input. Although
various evasion attacks are suggested to evaluate the robustness of FNN, we found that naive applications of the
FNN-attacks can not fully assess RNN’s robustness due to RNN’s various output requirements of online tasks. To
address this problem, we offer a general attack framework to express different RNN output requirements. This
framework also implies that hidden state transitions and temporal dependence can be used to realize RNN attacks,
leading us to devise a Predictive attack.
The second attack is a backdoor attack for RNN. A backdoor attack is also a test-time attack, but it modifies
both of training data and test input. Once a training of a victim model is done using the data, an attacker can
manipulate the victim model’s output by adding a trigger pattern to a test output. While many backdoor attacks
have been presented for non-temporal data, such as images, little is known regarding backdoor attacks for temporal
data. We found the naive backdoor attacks to temporal data, for which RNN is typically used, makes a trigger
pattern detectable to a victim, leading to attack failure. To make a trigger pattern undetectable, we propose a new
backdoor attack that exploits the temporal dependence of a dataset.
The third attack is a missing value-based backdoor attack, which can be a better option when many missing
values exist in a dataset. This attack exploits patterns in missing values of medical data in a decision of trigger values.
By replacing input values with trigger values, this attack becomes more convenient not requiring post-processing of
the temporal covariance-based attack, restricting input values in a valid range. To generate an undetectable missing
value-based trigger, we utilize Variational Autoencoder (VAE) to capture temporal dependence.
By considering the three suggested attacks, we expect that ML practitioners will be more aware of the RNN’s
vulnerability and make careful decisions in deploying RNNs for safety-critical applications. Furthermore, we
hope this thesis paves the way for future research on RNN’s robustness, leading to improved robustness against
adversarial attacks and trustable ML methods.
최근의 기계 학습(ML) 기법은 이미지 및 자연어 처리에서 뛰어난 성능을 보여주었다. 다양한 분야에서 ML
기법을 적용하고자하는 흐름이 생겼고, 보안이나 안전이 중요한 사용자 인증과 같은 애플리케이션에도 ML
기법을 적용하려는 시도가 있었다. 그러나 많은 후속 연구에 따르면 ML 기법은 악의적 공격에 취약하기 때문
에 안전이 중요한 작업에 적합하지 않다는 것이 밝혀졌다. 이는 많은 연구자들의 관심을 끌었고, 공격과 방어
전략을 고안하기 위한 많은 노력이 있었다.
그러나 대부분의 연구는 다층 퍼셉트론(MLP), 컨볼루션 신경망(CNN) 및 트랜스포머를 포함하는 피드
포워드 신경망(FNN)에 초점을 맞추고 있다. 대조적으로, 자율 주행 및 의료 모니터링과 같은 안전이 중요한
애플리케이션에 많이 쓰이는 순환 신경망(RNN)은 중요성에 비해 거의 연구 관심을 받지 못했다. 이 학위 논
문에서는 이러한 중요성을 인지하고 RNN의 견고성에 대해 연구한 내용을 정리하였다. 구체적으로, RNN을
공격할 때 생기는 고유한 문제를 발견하고, 이를 극복하기 위해 은닉 상태 전환 및 시간적 의존성을 사용하는
세 가지 공격을 제안하였다.
첫 번째 공격은 RNN에 대한 이베이젼 공격이다. 이베이젼 공격은 테스트 시간에 테스트 입력을 약간
수정하여 ML 모델의 출력을 임의로 바꾸는 것을 목표로한다. FNN을 위한 이베이젼 공격은 다양하게 제안돼
왔지만, 우리는 FNN을 위한 공격을 RNN에 그대로 적용할 때 RNN의 견고성을 온전히 평가할 수 없다는 것을
확인했다. 이는 온라인 테스크에따른 다양한 출력 요구 사항으로 인한 것인데, 이를 해결하기 위해 다양한 출력
요구 사항을 표현할 수 있는 일반적인 공격 프레임워크를 고안하였다. 또한, 이 프레임워크는 은닉 상태 전환과
시간적 의존성이 RNN을 공격하는데 사용될 수 있음을 보였고, 이 사실을 기반으로 예측 공격을 고안하였다.
두 번째 공격은 RNN에 대한 백도어 공격이다. 백도어 공격도 이베이션 공격과 같이 테스트 시의 공격이지
만 트레이닝 데이터와 테스트 입력을 모두 수정한다는 점이 다르다. 공격으로 인해 수정된 트레이닝 데이터를
사용하여 피해자 모델이 트레이닝 되면, 공격자는 테스트 입력에 트리거 패턴이라는 특정 변형을 적용하여 피
해자 모델의 결과를 조작할 수 있다. 기존 연구에서 이미지와 같은 비시간 데이터에 대한 백도어 공격은 많이
제시되었지만, RNN이 일반적으로 사용되는 시간 데이터에 대한 백도어 공격에 대해서는 알려진 바가 거의
없다. 우리는 시간 데이터에 기존 백도어 공격을 적용하면 트리거 패턴을 눈이 띄게 되어 공격이 실패로 이어
지는 문제를 확인하였다. 이를 해결하기 위해, 트리거 패턴을 감지할 수 없도록 데이터 셋의 시간적 의존성을
활용하는 새로운 백도어 공격을 제안하였다.
세 번째 공격은 결측값 기반 백도어 공격으로, 의료 데이터의 결측값 패턴을 트리거 패턴으로써 이용한다.
데이터 세트에 결측값이 많이 있을 때 이 공격은 위 백도어 공격보다 더 나은 옵션이 될 수 있는데, 입력값에
트리거 값을 더하는게 아닌 입력값을 트리거 값으로 대체한다는 점이 앞서 제시한 백도어 공격에서 요구되
었던 여러 사후 처리과정을 없애 공격이 더 간소화 되기 때문이다. 트리거가 감지 되지 않도록 하기 위해
VAE(Variational Autoencoder)를 사용하여 시간 의존성을 만족하는 결측값 기반 트리거를 생성한다.
제안된 세 가지 공격을 고려함으로써 ML 실무자가 RNN의 취약성을 더 잘 파악하고 안전이 중요한 분야
에 RNN을 배포하는 데 신중한 결정을 내릴 수 있을 것으로 기대한다. 또한, 이 논문이 RNN의 견고성에 대한
향후 연구를 위한 지침이 되어 적대적 공격에 대해 견고한 ML 기법을 개발하는 데 도움이 되길 바란다.