System Monitoring Teil 1
Für unsere Auszubildenden und interessierte Mitarbeitende haben wir seit 2 Jahren eine kleine Weiterbildungsreihe ins Leben gerufen. In unregelmäßigen Abständen wird dafür ein Thema vorbereitet, vorgestellt und dann in einem zweiten Termin vertieft. Eines der ersten Themen war das „Monitoring“ oder besser die „Überwachung von IT-Systemen“. Ich habe die Schulung für den Blog aufbereitet und werde sie Euch in der nächsten Zeit in mehreren Teilen hier vorstellen.
Teil 1 startet mit einer eher übergreifenden Fragestellung zum Monitoring von IT-Systemen – quasi die Metaebene.
Stellen wir uns doch zuerst mal die Frage, warum man IT-Systeme überhaupt überwachen wollen sollte?
Nun, ein paar Punkte fallen – direkt ins Auge:
Fehlererkennung
Das wesentliche Ziel einer Systemüberwachung ist natürlich die Fehlererkennung. Welche typischen Fehler können das sein?
Geräteausfall
Typische Fehler entstehen durch den Ausfall von Geräten. Für die Überwachung eine niedrig hängende Frucht – also einfach zu erkennen. Die Technik ist in den letzten Jahren zwar leistungfähiger und preiswerter (bezogen auf die Leistung) geworden, aber Geräte gehen doch auch immer noch kaputt.
Anwendungs- oder Dienstausfall
Auch der vollständige Ausfall oder das Blockieren von Anwendungen oder Diensten (Services) verusacht ein gut erkennbares Fehlerbild. Aber häufig erkennen die Nutzenden den Ausfall schneller als alle Überwachungs-sensoren.
Funktionseinschränkungen
Das Erkennen von Funktioneinschränkungen ist schon deutlich komplexer, da hier in der Regel kein binärer Zustand – geht / geht nicht – erkannt werden kann. Auch das Erkennen von zeitlichen Zusammenhängen ist oft schwierig.
Performanceeinschränkungen
Auch Performanceeinschränkungen sind nicht einfach zu erkennen, da Auswirkung und Ursache häufig in keinem direkten kausalen Zusammenhang stehen.
Auf die Möglichkeiten der Fehlererkennung (und welche Tools procado dafür einsetzt) der Verpflichtungen (SLAs) und der Anforderungen an ein Systemhaus werde ich in in den folgenden Teilen näher eingehen.
Nach der ersten Fehlererkennung, den erforderlichen und hoffentlich erfolgten Reaktionen, folgt die Fehleranalyse. Es soll ja die Fehlerursache beseitigt werden.
Wie kann ein Überwachungssystem dabei unterstützen?
Fehleranalyse
Für die Ursachenermittlung stellen sich die Fragen:
WAS – ist passiert (siehe Fehlererkennung)
WANN – ist es passiert
WARUM – ist es passiert (unter welchen Umständen)
Korrelation von Ereignissen
Ein wesentlicher Punkt ist der inhaltliche oder zeitliche Zusammenhang von Fehlern. Aus Ereignissen und deren Abfolge lassen sich häufig Schlüsse auf die Ursache ziehen – so denn genug Daten im Überwachungssystem vorliegen bietet sich dort der erste Analyseansatz.
Erkennen von Fehler- oder Angriffsvektoren
Hat man aus anderen Quellen Informationen zu Angriffen oder Fehlerursachen (MS / BSI Warnungen, …) kann man in den vorhandenen Daten des Monitorings nach bekannten Vektoren suchen.
Auch hier ist die Datenlage der zentrale Schlüssel – ohne adäquate Daten wird es schwierig.
Viele Systemhäuser versprechen ihren Kund*innen eine präzise Fehlervorhersage und proaktives Handeln, damit Fehler gar nicht erst eintreten oder sich zumindest nicht signifikant auf den IT-Betrieb auswirken. In der Praxis haben diese Vorhersagen Grenzen. Hier nur ein Beispiel von vielen:
Es ist durchaus möglich den benötigten Festplattenspeicherplatz zu überwachen und abzuschätzen wie sich der Bedarf im kommenden Jahr entwickeln wird. Der unternehmensweite Einsatz von MS-Team atomisiert dann blitzartig die gestellte Prognose.
Langfristige Prognosen bleiben schwierig, gerade wenn Kund*innen ihre Wünsche nicht artikulieren (können). Tendenzen sind aber häufig erkennbar und es kann proaktiv gegengesteuert werden.
Fehlervorhersage
Der heilige Gral – die „IT-Glaskugel“.
Man sollte hier den Kund*innen nicht zu viel versprechen. Im Zweifelsfall überraschten die Kund*innen die Dienstleister durch die Einstellung von 100 neuen Beschäftigten und alle Vorhersagen sind obsolet.
Entwicklung der Hardwareumgebung
Hardware Parameter lassen sich gut überwachen und Entwicklungen lassen sich gut erkennen. RAM oder Festplatten-Speicherauslastung, Temperatur, S.M.A.R.T. Fehlerhäufigkeit, u.v.a., das ist die Kernkompetenz eines Monitoringsystems.
Entwicklung der Anwendungs- und Dienstauslastung
Erfassen und Dokumentieren der aktuellen Belastungen und das Vorhalten einer Historie für mindestens 3 Monate im Monitoringsystem helfen bei der Erkennung von Veränderungen. Auch hier hilft ein Automatismus zur Bewertung nur wenig, die regelmäßige eigene Inaugenscheinnahme ist sinnvoll.
Entwicklung der System- und Anwendungsperformance
Kurze Lastspitzen lassen sich technisch nur schwer erkennen, die kontinuierliche Verschlechterung u.U. schon. Häufig sind aber die Nutzenden schneller als jedes Mess- oder Überwachungssystem. Die „gefühlte“ Performance ist ein wichtiger Faktor der Kund*innen/Kolleg*innen-Zufriedenheit. Die Aussage „Es ist im Monitoringsystem keine Überlastung erkennbar“ hilft da leider nicht weiter.
Gibt es noch weitere Gründe, die eigenen oder Kundensysteme dezidiert zu überwachen?
Im Teil 2 der Reihe gibt es ein paar weitere Ideen dazu.