서지주요정보
실측 네트워크 트래픽을 위한 애플리케이션 시그네쳐 자동 생성에 관한 연구 = Towards automatic application signature generation from mixed application traffic
서명 / 저자 실측 네트워크 트래픽을 위한 애플리케이션 시그네쳐 자동 생성에 관한 연구 = Towards automatic application signature generation from mixed application traffic / 김태희.
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018435

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 07017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In order to classify Internet traffic by the application, port-based approach is widely used, but due to increasing use of dynamic port numbers the approach fails to identify more than a third of today's backbone traffic [5]. Content-based approach can classify more applications than the port-based approach, but the method requires application signatures prior to the classification process [7]. A signature is an invariant and distinguishing byte sequences of a flow. It is a pre-defined keyword from an application specification, and more than one can be associated with one application. When application specifications are known, keywords used in the specification become signatures. However, this process is too labored-intensive and time-consuming to apply to all applications. Also we need application information or training data. However It is impractical to know the information of all applications in the world. Since everyday and every week, new applications are emergent. This paper presents a simple idea to generate application signatures automatically without application information and training data. The key idea of our algorithm is the following. (a) find all common byte sequences from packets' payload. (b) make all possible signature candidates from previous step's result, and (c) generate the most frequent byte sequences as an application signature. Since pre-defined keywords appear more frequently than random byte sequences in payload, we extract prevalent contiguous byte sequences by comparing each packet with the rest. An Application can have one more signatures since our algorithm extracts pre-defined keywords as signatures. Therefore we should group signatures per each application. Our algorithm is to group the signatures of flows which concurrently communicate with a pair of IP and port. Because only one application uses a specific IP and port at any time. We collect full-capture packet traces of eight applications based on their well-known ports: HTTP, HTTPS, FTP, SMTP, POP3, SSH, BitTorrent, and MSN messenger. We apply the algorithm described above to extract signatures from the traces. The generated signatures correctly classify with the average accuracy rate of 98.08% even though our algorithm examines just first packet from each direction. Also when we apply the signatures to a trace collected six months later, we observe that the average accuracy rate is about 96.6%.

인터넷 트래픽을 애플리케이션별로 분류하기 위해서, 포트 기반의 방법이 널리 이용되고 있지만, 동적 포트 사용의 증가로, 포트 기반의 방법은 현재 백본 트래픽의 1/3 이상의 트래픽이 잘못 분류 되어지고 있다. Content 기반의 방법의 경우 포트 기반의 방법보다 훨씬 더 정확하게 트래픽을 분류할 수 있지만, 그 방법은 분류하기 전에 애플리케이션 시그네쳐를 미리 알아야 한다는 제한사항이 있다. 이 때 시그네쳐라고 하는 것은 변하지 않으며 다른 애플리케이션의 플로우와 구분지어질 수 있는 일련의 바이트를 말하는 것으로, 애플리케이션 명세서에 정의된 키워드라고 할 수 있으며, 또한 하나의 애플리케이셔은 하나 이상의 시그네쳐를 가질 수 있다. 애플리케이션 명세가 공개되어 있을 경우, 명세에 정의된 키워드들이 시그네쳐가 될 수 있겠지만, 많은 경우에 시그네쳐를 찾아내는 작업은 노동 집약적이고 시간을 요구하는 일이다. 또한 시그네쳐를 찾아내기 위해서 우리는 애플리케이션에 대한 정보를 손수 찾아내거나 실제 해당 트래픽만을 수집해야 한다. 하지만 이러한 작업을 세상에 존재하는 모든 애플리케이션에 대해서 진행한다는 것은 불가능할뿐더러, 계속해서 새로운 애플리케이션들이 등장하고 있기 때문에 이 방법이 현실적으로 적용되기는 힘들다. 이 논문에서는 애플리케이션의 정보나 특정 애플리케이션의 트래픽이 주어지지 않은 상황에서 애플리케이션의 시그네쳐를 자동으로 만들어내는 간단한 아이디어를 제시하고 있다. 우리의 알고리즘은 다음과 같이 설명될 수 있다. (가) 패킷들의 페이로드로부터 공통적인 바이트 시퀀스를 모두 찾아낸다. (나) 앞 단계에서 찾아낸 바이트 시퀀스들로부터 가능한 모든 시그네쳐 후보들을 만들어 낸다. (다) 가장 빈번하게 나타나는 바이트 시퀀스를 애플리케이션의 시그네쳐로 정의한다. 미리 정의된 키워드의 경우 다른 무작위의 바이트 시퀀스보다는 페이로드에서 더욱더 빈번하게 나타날 것이므로, 우리는 각 패킷들을 나머지 패킷들과 비교함으로써 특정 위치에 자주 나타나는 연속적인 바이트 시퀀스를 찾아내고자한다. 이렇게 찾아낸 애플리케이션들의 시그네쳐는 애플리케이션별로 묶어주는 작업이 요구되어지는데, 이 논문에서는 특정 시간에 하나의 호스트의 특정 포트와 통신을 하는 하나 이상의 호스트들로부터 생성된 시그네쳐는 하나의 애플리케이션으로부터 생겨난다는 사실을 이용하여 이들을 하나의 애플리케이션으로 묶어주고 있다. 우리는 well-known 포트 번호를 기반으로 8개의 애플리케이션(HTTP, HTTPS, FTP, SMTP, POP3, SSH, BitTorrent, MSN messenger)의 패킷을 페이로드까지 수집을 하였고, 앞서 설명한 우리의 알고리즘을 이용하여 해당 트래픽으로부터 애플리케이션 시그네쳐를 만들었다. 이 때 만들어진 시그네쳐는 실험 트래픽의 한 방향에서의 상위 몇 개의 패킷만을 이용해서 만들어졌지만 평균 98.08%의 정확도로 트래픽을 분류하였고, 6개월 이후에 트래픽에 해당 시그네쳐를 이용했을 때도, 96.6%의 평균 정확도를 가지고 분류할 수 있음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 07017
형태사항 vi, 23 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Tae-Hee Kim
지도교수의 한글표기 : 문수복
지도교수의 영문표기 : Sue-Bok Moon
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 수록
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서