System Monitoring Teil 2: Ziele – und was noch?
Ein sinnvoll konzipiertes Monitoringsystem liefert, neben einer Statusanzeige, eine Vielzahl von zusätzlichen Informationen über das überwachte System und stellt zusätzlich Berichts- und Automatisierungsfunktionen bereit. Diese Informationen helfen uns eine aussagefähige IT-Dokumentation zu erstellen, Prozesse zu verschlanken, zu automatisieren und regelmäßige Berichte über die überwachten Systeme zu erstellen. Besonders zur Erfüllung der Anforderungen durch die DSGVO (Rechenschaftspflichten) oder zur Normerfüllung (ISO 27001, BSI Grundschutz u.a.) gibt es praktische Hilfsmittel. Hier ein paar Beispiele:
Dokumentation
IT-Dokumentation: Welche*r Administrator*in kennt es nicht, die Schrecksekunde, wenn jemand (typischerweise der DSB oder ISB) eine aktuelle und aussagefähige Systemdokumentation einfordert. Nichts ist lästiger, als eigenes Wissen für andere aufzubereiten – man hat doch auch sonst genug zu tun. Eine Systemüberwachung kann zumindest anteilig hier eine Unterstützung liefern. Allerdings muss auch hier zuerst einige Arbeit investiert werden. Die überwachten Systeme sollten sinnvoll gruppiert und angeordnet werden und auch räumliche Zuordnungen sollten erkennbar sein.
Gerätestatus
Eine Übersicht – in Farbe – hilft, den Status einzelner Geräte zu erkennen und einzuschätzen.
Funktionsübersicht
Das Gruppieren von technischen Systemen hilft den Status der gesamten IT-Struktur leichter zu überschauen. Eine IT-Struktur sollte nach logischen, nachvollziehbaren Attributen gruppiert werden. Typische Attribute sind: Standort, technische Gemeinsamkeiten wie Server, Clients, Netzwerke oder deren Abhängigkeiten.
Netzwerkstrukturen
„Ein Bild sagt mehr als tausend Worte“ – Ein bekannter Spruch mit globaler Gültigkeit.
Auch für die Betrachtung der IT-Sicherheit ist es unerlässlich, dass Strukturen erkennbar und eine Risikoeinschätzung auf einen Blick möglich sind.
Datenflüsse
Aus den Netzwerkstrukturen lassen sich nicht nur Informationen zu Datenflüssen und Auslastung ableiten.
Abhängigkeiten
Damit eine Systemüberwachung Euch rechtzeitig über die Konsequenzen von Fehlern informieren kann, müssen Abhängigkeiten erfasst, visualisiert und in der Alarmierungskette berücksichtigt werden. Dass der Ausfall einer Datenbank-VM auf Host-01 die Funktion der Frontend-VM auf Host-02 beeinträchtig sollte erkennbar sein.
Berichte
Ein Einhalten von Servicelevel Agreements (SLA), das Erkennen und die Dokumentation von Entwicklungen helfen bei der Diskussion mit der Geschäftsleitung, oder mit Kunden. Gerade Dienstleister, aber auch IT-Abteilungen müssen hier gelegentlich Nachweisen, dass sie ihre Arbeit ordentlich gemacht haben. Allerdings ist das Erstellen von Berichten eine ähnlich unbeliebte Aufgabe wie das Erstellen von Dokumentationen. Wenn schon eine Systemüberwachung implementiert ist, sollte sie auch in der Lage sein, die notwendigen Berichte auf Knopfdruck oder noch besser automatisiert erstellen zu können.
Entwicklungen
Am folgenden Bericht kann man erkennen, dass das Host-System (3) etwas mehr Aufmerksamkeit benötigt. Die Auslastung ist im Mittelwert an der Grenze der Verfügbarkeit – entweder sollte man die dort realisierten virtuellen Server auf Diät setzen, oder nach Speicherriegeln suchen gehen.
Anhand der USV-Temperatur kann man einfach Rückschlüsse auf die Temperatur im Serverraum ziehen. Hier ist zu erkennen, dass im Mai & Juni die Temperatur definitiv zu hoch war und erst ab Mitte Juli sich die Lage normalisiert hat – die Klimaanlage wurde repariert.
SLA‘s / Uptime / DownTime
Neben der Speicherauslastung der Festplatte kann man in dieser Übersicht hier die drei sehr kurzen Ausfallzeiten erkennen. Grundsätzlich ist die Dokumentation der „Verfügbarkeit“ von IT-Systemen ein wichtiger Nachweis zur Erfüllung der Rechenschaftspflichten im Rahmen der Anforderungen der DSGVO.
Prozessüberwachung und Automatisierung
Werden Systeme komplexer reicht es häufig nicht mehr, nur einzelne Sensoren und Werte zu erfassen und Schwellwerte zu vergleichen. Das Erkennen von Abhängigkeiten und der Überblick über den Status von Prozessen oder dem Gesamtsystem wird wichtig.
Prozesse
Ein Business Process Management-Sensor kann den zusammengefassten Status ganzer Geschäftsprozesse liefern und überwacht dabei mehrere Prozesskomponenten. Dies bedeutet, dass man einen benutzerdefinierten Sensor mit Kanälen erstellen kann, die auf Daten von anderen Sensoren („Quellsensoren“) basieren, die für Euer Netzwerk spezifisch sind.
In folgenden Beispiel werden die Werte der Webseite (Up), des Shops (Up) und anderer Werte zu einem Gesamtbild (Global State) zusammengefasst. Das erhöht die Übersichtlichkeit und sorgt für kurze Entscheidungswege.
Automatisierung
Das Monitoring System kann die Verfügbarkeit und Performance der gesamten IT-Infrastruktur überwachen. Allerdings sind die praktischen Eingriffsmöglichkeiten der Überwachung begrenzt. Mit dem Einsatz von Powershell Scripten eröffnen sich hier vielfältige Möglichkeiten. Bei erkannten Ausfällen oder Störungen schickt das Monitoringssystem also nun eine Benachrichtigung an ein Automatisierungstool, wie z.B. ScriptRunner. ScriptRunner ist eine Lösung zur Automatisierung und Delegation von PowerShell-Skripten. Anhand der Information des Monitoringsystems wählt ScriptRunner das passende Skript und führt es automatisch an der entsprechenden Stelle aus. Darüber hinaus organisiert und verwaltet ScriptRunner alle verfügbaren PowerShell-Skripte eines Teams/Unternehmens und reduziert damit Zuordnungs- oder Verteilungsprobleme und erhöht die Ausführungssicherheit und Effizienz bei deren Einsatz.