Intrusion Detection Model Based on TF.IDF and C4.5 Algorithms

Khaldoon AWADH, Ayhan AKBAŞ
2020 Journal of Polytechnic  
Son yıllarda, makine öğrenmesi ve veri madenciliği teknolojilerini kullanarak kullanarak Saldırı Tespit sistemlerinin performanslarını iyileştirmenin yeni yollarını keşfetmek araştırmacıların ilgisini çekmektedir. Bu konuda araştırmacıların karşılaştıkları en zorlayıcı problemlerden biri eldeki verilerin makine öğrenmesinde kullanabilecekleri forma dönüştürülmesidir. Bu makalede, simule edilmiş UNSW-NB15 veri setini dönüştürme ön işlemi ile beraber C4.5 algoritması karar ağacını temel alan
more » ... rı Tespit Sistemi modeli sunmaktadır. Oluşturulan model, yüksek tespit performansını yakalayabilmek amacıyla veri tiplerini, makine öğrenme işleminin kabul ettiği verimli bir forma dönüştürmek için Term Frequency-Inverse Document Frequency (TF.IDF) metodunu kullanmaktadır. Model, UNSW-NB15 veri setinin rastgele seçilmiş 250000 kaydı ile test edilmiştir. Seçilmiş kayıtlar, 50, 500, 1000, 5000 kayıtlık segmentler haline gruplandırılmıştır. Her segment daha sonra çoklu ve ikili sınıf veri setleri olarak alt gruplandırılmıştır. Weka yazılımında C4.5 karar ağacı algoritması ile Çoklu Katmanlı Perseptron (MLP) performansı ve Naïve Bayes ile karşılaştırılmıştır. Önerilen metod sınıflandırıcıların performansını ciddi oranda artırmış ve yanlış tahmin oranlarını düşürmüştür.
doi:10.2339/politeknik.693221 fatcat:epxaok5jdjcrtjkwgk4jrjuyva