Advances in Reliably Evaluating and Improving Adversarial Robustness
[article]
Jonas Rauber, Universitaet Tuebingen, Bethge, Matthias (Prof. Dr.)
2021
Machine Learning hat in den letzten fünf bis zehn Jahren enorme Fortschritte gemacht. Heutzutage können wir Computer, Maschinen, dazu bringen, komplexe Wahrnehmungsaufgaben aus Daten zu lernen, anstatt sie explizit zu programmieren. Besonders moderne Sprach- und Bilderkennungssysteme erreichen im Vergleich zu denen von vor einem Jahrzehnt mittlerweile eine beeindruckende Genauigkeit. Weniger beeindruckend ist die Anfälligkeit von Machine-Learning-Systemen für kleine, böswillig herbeigeführte
more »
... rungen. Kaum wahrnehmbare Hintergrundgeräusche oder Veränderungen ausgewählter Pixel können sie komplett in die Irre führen. Während Menschen sich oft über diese Dummheit künstlicher Intelligenz amüsieren, machen sich Entwickler Sorgen um die Sicherheit ihrer Machine-Learning-Anwendungen, und Wissenschaftler suchen nach robusteren Machine-Learning-Modellen, deren Wahrnehmung mehr der des Menschen entspricht. Diese Dissertation fasst Fortschritte in drei Bereichen rund um die Robustheit gegen gezielte Störungen zusammen und diskutiert ihre Implikationen. Erstens stellen wir eine neue Art Attacke vor, die Machine-Learning-Anwendungen ganz unmittelbar angreifen kann. Im Gegensatz zu vorangegangenen Attacken erfordert sie weder Insiderwissen noch besonderen Zugang zum Modell. Unsere Ergebnisse zeigen die konkrete Bedrohung, die durch die derzeitig fehlende Robustheit von Machine-Learning-Anwendungen entsteht. Zweitens präsentieren wir mehrere Arbeiten, die sich mit den verschiedenen Herausforderungen bei der Robustheits-Evaluierung befassen. Die grundlegendste Herausforderung dabei ist, dass gängige Testmethoden robuste Modelle nicht von Modellen mit irreführenden Gradienten unterscheiden können. Durch zwei neue Arten von Testmethoden, die immun gegen irreführende Gradienten sind, helfen wir, dieses Problem aufzudecken und zu lösen. Falsche Anreize sind ein weiterer Grund für fehlerhafte Evaluierungen. Um dieses Problem zu lindern, haben wir gemeinsame Richtlinien veröffentlicht und einen interaktiven Wettbewerb organisiert. S [...]
doi:10.15496/publikation-63213
fatcat:pr4xp7fwbfhjhiuzno4e4iwqgm