Study of 2D Representations of Encrypted Network Traffic for Attack Detection with Deep Learning

Martin Pichler, Tanja Zseby, Felix Iglesias Vazquez
2022
In einer immer vernetzteren Welt steigt die Menge an gesendeten Daten ständig an. Gleichzeitig steigt auch der Bedarf an schnellen und robusten Systemen zum erkennen von Netzwerkangriffen. Solche Angriffe zu erkennen wird durch die hohe Menge an verschlüsselten Daten erheblich erschwert.Deep Learning (DL) zeigt in vielen Anwendungsbereichen herausragenden Ergebnisse, beim Erkennen von Netzwerkangriffen zeigt sich allerdings kein signifikanter Unterschied zu bestehenden Machine Learning (ML)
more » ... tzen. Wir schlagen eine neue bildbasierte Form zur Darstellung von Datenverkehr vor, welche sich die starke Leistung in der Mustererkennung von Convolutional Neural Networks (CNN) zu nutze machen kann. Dazu verwenden wir modernste synthetische Datensätze und Datensätze welche aus echten Datenverkehr erstellt wurden. In Kombination mit aktuellen Deep Learning Ansätzen wie Siamese Networks (SN) oder Few-Shot Learning untersuchen wir die Leistung in binärer Klassifikation und in Klassifikation mit mehreren Klassen.Wir berücksichtigen modernen Datenverkehr in dem wir unsere Datensätze einschränken, und nur Attribute verwenden, welche auch in verschlüsselter Kommunikation vorliegen. Wir kombinieren mehrere Granularitäten von Netzwerkkommunikationen zu einem neuen Datensatz, welchen wir multikey nennen. Mit diesen multikey Ansatz versuchen wir so viel Informationen wie möglich aus den zur Verfügung stehenden Daten auszulesen. Es zeigt sich, dass verschiedene Modelle und Architekturen nur wenig Einfluss auf die Erkennungsrate haben. Bilder welche wir aus multikey Daten generieren, verbessern die Resultate zu bestehenden Darstellungen von Datenverkehr, liefern aber keine besseren Ergebnisse als andere Machine Learning Modelle, welche auch mit multikey basierten Datensätzen trainiert wurden. Daraus schließen wir, dass die Erkennungsrate vor allem von der Qualität und Genauigkeit der Daten abhängt.Als Resultat dieser Arbeit präsentieren wir eine optimierte Darstellung von Datenverkehr zur Verwendung mit CNNs. Außerdem beschreiben wi [...]
doi:10.34726/hss.2022.89762 fatcat:ioxgqcq6sbgwhfqcr36tew2ea4