Homoglyphs are a shape that is difficult to distinguish visually because it is similar or identical. Because of this characteristic, attackers use them for phishing, causing serious problems. In this paper, we deal with the countermeasures against a new type of attacks through homoglyphs. Existing homoglyph attacks consist of characters or words, and so do the corresponding countermeasures. However, since the new type contains multiple homoglyphs in the text of the scam email, a new countermeasure was needed. To this end, we present a natural language processing technique that utilizes sequence information and a method that utilizes both visual elements and sequence information compared to existing methods for restoring homoglyphs. We use accuracy and false-positive rate (FPR) as evaluation criteria to compare the existing methods with the newly proposed methods. Through comparison using multiple evaluation criteria, we show that the method using both visual judgment and sequence information converts the homoglyph most accurately.
호모글리프는 시각적으로 인식하기에 비슷하거나 같아 구분하기 어려운 자형을 말한다. 이러한 특성 때문에 공격자들은 피싱에 이용해 심각한 문제를 초래한다. 이 논문에서는 호모글리프를 통한 새로운 유형의 공격에 대한 대응 방법을 다루었다. 기존 호모글리프 공격은 문자나 단어 단위로 이루어져, 그 대응 방안도
문자나 단어에 맞추어 있었다. 하지만 새로운 유형에는 스캠 이메일의 문장에 다수의 호모글리프가 포함된 형태이므로 새로운 대응 방안이 필요했다. 이를 위해 기존의 호모글리프를 복원하기 위한 방안들과 비교하여 시퀀스 정보를 활용하는 자연어처리 기법, 시각적 요소와 시퀀스 정보 모두를 활용하는 방안을 제시하였다. 정확도, 오탐률을 평가 기준으로 삼아 기존의 방법들과 새로 제시한 방법들을 비교하였다. 여러 평가 기준을 활용한 비교를 통해 시각적 판단과 시퀀스 정보 모두를 활용한 방법이 가장 정확하게 호모글리프를 변환함을 보였다.