A Proactive Inference Method of Suspicious Domains
선제 대응을 위한 의심 도메인 추론 방안

Byeongho Kang, JISU YANG, Jaehyun So, Czang Yeob Kim
2016 Journal of the Korea Institute of Information Security and Cryptology  
AhnLab 요 약 본 논문에서는 선제 대응을 위한 의심 도메인 추론 방안을 제시한다. TLD Zone 파일과 WHOIS 정보를 이용 하여 의심 도메인을 추론하며, 후보 도메인 탐색, 기계 학습, 의심 도메인 집단 추론의 세 과정으로 구성되어 있다. 첫 번째 과정에서는 씨앗 도메인과 동일한 네임 서버와 업데이트 시간을 가진 다른 도메인을 TLD Zone 파일로부 터 추출하여 후보 도메인을 형성하며, 두 번째 과정에서는 후보 도메인의 WHOIS 정보를 정량화하여 유사한 집단 끼리 군집화 한다. 마지막 과정에서는 씨앗 도메인을 포함하는 클러스터에 속한 도메인을 의심 도메인 집단으로 추 론한다. 실험에서는 .COM과 .NET의 TLD Zone 파일을 사용하였으며, 10개의 알려진 악성 도메인을 씨앗 도메 인으로 이용하였다. 실험 결과, 제안하는 방안은 55개의 도메인을 의심 도메인으로 추론하였으며, 그 중 52개는 적 중하였다. F1은 0.91을 기록하였으며, 정밀도는 0.95을
more » ... 였으며, 정밀도는 0.95을 보였다. 본 논문에서 제안하는 방안을 통해 악성 도메인을 추론하여 사전에 차단할 수 있을 것으로 기대한다. ABSTRACT In this paper, we propose a proactive inference method of finding suspicious domains. Our method detects potential malicious domains from the seed domain information extracted from the TLD Zone files and WHOIS information. The inference process follows the three steps: searching the candidate domains, machine learning, and generating a suspicious domain pool. In the first step, we search the TLD Zone files and build a candidate domain set which has the same name server information with the seed domain. The next step clusters the candidate domains by the similarity of the WHOIS information. The final step in the inference process finds the seed domain's cluster, and make the cluster as a suspicious domain set. In experiments, we used .COM and .NET TLD Zone files, and tested 10 seed domains selected by our analysts. The experimental results show that our proposed method finds 55 suspicious domains and 52 true positives. F1 scores 0.91, and precision is 0.95 We hope our proposal will contribute to the further proactive malicious domain blacklisting research.
doi:10.13089/jkiisc.2016.26.2.405 fatcat:3dmq4duwprby3nmasktkbrwmra