Autonomic self-healing in cloud computing platforms

Anton Gulenko, Odej Kao, Technische Universität Berlin
2020
Die steigende Nachfrage nach Diensten mit immer höheren Abstraktionsebenen bestimmt heutzutage das Gebiet des Cloud Computing. Sowohl in der Forschung, als auch in der Industrie, führen zusätzliche Abstraktionsschichten und Komponenten zu wachsender Komplexität moderner IT-Systeme. Längst hat die schiere Größe von Cloudsystemen die Grenze des von Menschen Beherrschbaren überschritten. Nutzer und Kunden von Cloudplattformen erwarten dennoch ein hohes Maß an Zuverlässigkeit und Ausfallsicherheit,
more » ... Ausfallsicherheit, sowohl von der Plattform, als auch von den darin ausgeführten Anwendungen. Dies lässt sich nur mithilfe von Automatisierungslösungen erreichen. Die meisten automatischen Lösungen für die Zuverlässigkeit von verteilten Systemen basieren darauf, Ausfälle von Teilkomponenten zu verhindern oder zu verschleiern. Dabei wird übersehen, dass sowohl Hardware- als auch Software-Komponenten auch ein degradiertes Verhalten aufweisen können, ohne komplett auszufallen. Solche Fälle, auch Anomalien genannt, entstehen häufig aus Fehlern im Programmcode einer Applikation, oder durch andere unvorhergesehene Umstände im System. Anwendungsspezifische Systeme für Anomalieerkennung und -behebung behandeln bestimmte Typen von Anomalien, basierend auf manuell festgelegten Regeln. Im Normalfall müssen Administratoren solche Anomaliefälle aber manuell behandeln. Momentan gibt es kein System in praktischer Benutzung, welches Anomalien erkennt und behebt, ohne dabei Annahmen über die überwachte Anwendung zu treffen. Daher schlägt diese Dissertation eine Erweiterung von traditionellen Cloudplattformen vor, die solche Plattformen um selbstheilende Fähigkeiten erweitern. Unser Ansatz basiert auf Echtzeitdatenströmen, die von allen kritischen Komponenten des systems erfasst werden. Diese Datenströme werden kontinuierlich analysiert, um festzustellen, ob die jeweilige Komponente sich normal verhält, oder eine Anomalie aufweist. Sobald eine Anomalie erkannt wird, wird die Situation automatisch weiter untersucht, die Ursache der Anomalie gefunden, und autom [...]
doi:10.14279/depositonce-10340 fatcat:bsuuybgoijfkxmnfcm7nx5ha6a