Startseite > Datacenter & Verkabelung > Ausfallsicher durch Failover-Clustering

Hochverfügbarkeit im Netzwerk

Ausfallsicher durch Failover-Clustering

24. März 2011, 10:47 Uhr | Daniel Zobel, tätig bei der Paessler AG

Um die internen Arbeitsabläufe zu sichern, sind Unternehmen von einer reibungslos arbeitenden IT-Infrastruktur abhängig. Für den IT-Administrator ist es jedoch nicht gerade einfacher geworden, den Überblick über das immer komplexer werdende Firmennetzwerk zu behalten. Auslöser sind unter anderem Neuerungen wie Virtualisierung & Co. Lösung und Herausforderung zugleich ist eine Netzwerküberwachung als Basis für die 100-prozentige Verfügbarkeit des Netzwerks.Nach Prognosen des Marktforschungsinstituts IDC wird sich das Wachstum des gesamten IT-Markts bis 2014 stetig beschleunigen. Zu diesem Zeitpunkt erreiche der Markt ein Volumen von mehr als 69,3 Milliarden Euro. Gleichzeitig steigt die Komplexität der Firmennetzwerke. Hinzu kommt, dass viele Unternehmen aus Kosten- und Optimierungsgründen vermehrt auf die Virtualisierung ihrer Server setzen. Dabei erfolgt oft eine Konsolidierung möglichst vieler Anwendungen auf einer zentralen Hardware, wodurch Ressourcen eingespart werden sollen. Gleichzeitig aber sind Redundanzen Grundvoraussetzung für die Hochverfügbarkeit von Netzwerken, was bedeutet, dass doppelte Ressourcen zur Verfügung gestellt werden müssen. Was zunächst wie eine widersprüchliche Aufgabe klingt, lässt sich nachhaltig lösen: Um Hochverfügbarkeit zu sichern, kann Virtualisierung eine hilfreiche Maßnahme sein, denn in virtuellen Umgebungen lassen sich Redundanzen einfacher erzeugen als auf realer Hardware. Doch bietet die Virtualisierung nicht nur Vorteile. Mit ihrer Einführung verschärfen sich die allgemeinen Risiken, die sich durch die Abhängigkeit vieler unternehmenskritischer Abläufe von wenigen, konsolidierten IT-Systemen ergeben, was viele Betriebe oft unterschätzen. Auf Grund dieser wachsenden Anforderungen an heutige IT-Systeme und deren Administratoren steigt auch die Gefahr von Netzwerküberlastungen und -ausfällen. Die Frage ist also nicht, ob ein Unternehmen hochverfügbare Systeme braucht, sondern wie es diese realisieren kann. Sicherheit durch Redundanz Um Ressourcen mit der größtmöglichen Verfügbarkeit bereitzustellen, geht es letztlich darum, durch doppelte oder mehrfache Vorhaltung der Systemressourcen ein redundantes Gesamtsystem zu erreichen. Ein Beispiel: Bei einem Hot-Standby-System ist von zwei Servern nur einer wirklich produktiv; der andere läuft permanent mit und wird erst bei Bedarf aktiviert. Die verarbeiteten Daten werden entweder gespiegelt oder sind im Idealfall über ein ebenfalls in sich redundantes, gekapseltes Speichersystem (Storage Area Network, SAN) erreichbar. In diesem Fall greifen die Server zentral auf die Daten zu. Fällt der Produktiv-Server aus, springt der Redundanz-Server automatisch ein, und die Services sind nahtlos verfügbar, bei (wenn überhaupt) nur minimaler Ausfallzeit. Die Hochverfügbarkeit von Systemen wird jedoch durch mehrere Faktoren ständig bedroht. Diese sind zudem noch ganz unterschiedlicher Art. Beispielsweise können Dienste ausfallen oder Filesharing-Aktivitäten der Mitarbeiter Bandbreitenüberlastungen hervorrufen. Eine weitere unvorhersehbare Gefahr für die Hochverfügbarkeit sind Hardwaredefekte, hervorgerufen aus den verschiedensten Gründen - von menschlichem Verschulden bis zur Veralterung der Systeme. Oft investieren Unternehmen vorschnell in leistungsfähigere Hardware, ohne jedoch vorher zu analysieren, worin beispielsweise Performance-Probleme ihre eigentliche Ursache haben. Nicht zuletzt spielt das Thema Sicherheit eine wesentliche Rolle bei der Bereitstellung hochverfügbarer Infrastrukturen. Denn häufig übersehen die Verantwortlichen, dass eine hohe, abrupt auftretende CPU-Last, starker Traffic oder Netzwerkausfälle Hinweise auf Malware-Aktivitäten sein können. Die Infektion durch Schadsoftware gehört zu den Hauptursachen für Datenmanipulation oder gar -verlust in Unternehmen. Trojaner, Viren, Exploits etc. kompromittieren nicht nur Rechner, sondern gleich das gesamte Netzwerk. "Virtuelles" Für und Wider Die Herausforderung, Hochverfügbarkeit sicher zu stellen, verschärft sich sogar noch im Zuge einer Virtualisierung. Zwar werden virtuelle Umgebungen auf Grund ihrer Vorteile wie beispielsweise Kosteneinsparungen, Lastverteilung sowie der Konsolidierung von Ressourcen etc. vermehrt eingesetzt. Server-Virtualisierung ermöglicht die dynamische Zuweisung von Rechenleistung und Speicherplatz, um Verbrauchsspitzen einzelner Applikationen abzufangen. Bei hoher Beanspruchung lassen sich also Ressourcen "ausleihen", die zu diesem Zeitpunkt ungenutzt zur Verfügung stehen. Somit befreit die Virtualisierung eine Applikationen von den Einschränkungen, die ihnen ein physischer Server auferlegt und können so einer Applikation die Ressourcen eines ganzen IT-Systems bereitstellen. Dies funktioniert jedoch nur dann, wenn ein hochverfügbares Netzwerk die physischen Server verbindet. Andernfalls drohen erhebliche Leistungseinbußen. Denn Virtualisierung birgt die Gefahr, dass durch den Einsatz von konsolidierter Hardware und zentralen Rechenzentren mit virtuellen Maschinen sogenannte Single-Points-of-Failure (SPoF) geschaffen werden. Als SPoF bezeichnet man den Bestandteil innerhalb eines Systems, dessen Ausfall das gesamte System zum Absturz bringen würde. Dies bedeutet, SPoF bedrohen in erheblichem Maß die Wirtschaftlichkeit von Unternehmen, denn der Ausfall einzelner Hardware hat in virtuellen Umgebungen viel größere Auswirkungen als in einer "herkömmlichen" IT-Infrastruktur mit unabhängigen Clients und verteilter Datenablage. Die neu geschaffenen, virtuellen Umgebungen müssen also wiederum durch zusätzliche, redundante Hardware ausfallsicher gemacht werden, um eine ununterbrochene Verfügbarkeit und damit die Wirtschaftlichkeit der IT-Strukturen sicherzustellen. Rund um die Uhrverfügbar Ein Weg zur Minimierung derartiger Probleme - gerade auch bei Virtualisierung - ist ein fortlaufendes Monitoring. Es sammelt detailliert und unterbrechungsfrei Netzwerkdaten und erstellt leicht verständliche Trendanalysen für den Administrator und die Geschäftsleitung. Eine Monitoring-Software sorgt für eine Überwachung aller Ressourcen, um sicherzustellen, dass beispielsweise die virtuelle Maschine mit dem Exchange-Server erreichbar ist und Mails gesendet und empfangen werden können oder ob der Windows-Dienst für das Backup im Hintergrund tatsächlich läuft. Die aktuelle Auslastung der internen Bandbreiten sollte ebenso gemonitort werden wie die Anbindung an das Internet, die Verfügbarkeit der Firmen-Website, oder die Service-Qualität (QoS) bei der Anbindung von Außenstandorten. Somit ist es möglich, zum einen die Hochverfügbarkeit zu gewährleisten und zum anderen diese auch 24 Stunden am Tag zu überprüfen. Auf diese Weise sind wesentliche Ziele erreichbar. Kurzfristig: Zuverlässige und detaillierte Alarmierung im Fehlerfall inklusive automatischer Sofortmaßnahmen (beispielsweise ein Diensteneustart); schnelle Reaktion bei Ausfällen zur Sicherung der Hochverfügbarkeit; nicht zuletzt: ein "sicheres Gefühl", dass Netzwerk und IT-Strukturen funktionieren und Dienste verfügbar sind, solange keine Alarmierung erfolgt. Langfristig: Das Erkennen langfristiger Trends, frühzeitiges Reagieren, wenn die Verfügbarkeit auf längere Sicht gefährdet ist, und eine erhebliche Kosteneinsparung durch gezielte Hardwareinvestitionen. Allerdings ist es für die Erreichung dieser Ziele zwingend erforderlich, dass auch die Monitoring-Lösung selbst ausfallsicher ist, was zum Beispiel durch das Implementieren eines Failover-Clusters zu erreichen ist. Ein solches Clustering der Monitoring-Lösung stellt sicher, dass die Monitoring-Daten genauso lückenlos verfügbar sind wie das zu überwachende IT-Netzwerk selbst. Eine Beeinträchtigung der Betriebszeit des Monitorings beispielsweise durch Verbindungsstörungen, einen Ausfall der Internet-Anbindung oder fehlerhafte Hardware sowie Software-Upgrades lässt sich dadurch vermeiden. Selbst bei einem Crash des Haupt-Servers läuft das Monitoring auf anderen Knoten des Clusters ganz normal weiter. Die Paessler AG setzt zum Beispiel bei ihrer Monitoring-Software einen Cluster ein, der aus einem "Master Node" sowie einem oder mehreren "Failover Nodes" aufgebaut ist. Typischerweise arbeitet ein Cluster für einen der Bereiche Lastverteilung (Load Balancing), Parallelverarbeitung, oder Hochverfügbarkeit. Der Cluster der Paessler AG kombiniert jedoch Hochverfügbarkeit mit einer parallelen Verarbeitung: An jedem Knotenpunkt führt jeweils eine vollständige Installation des PRTG-Network-Monitors selbstständig die komplette Überwachung des Netzwerks durch. Parallele Netzwerküberwachung Dies bedeutet im Einzelnen: Während des normalen Betriebs wird der Master Node genutzt, um Geräte und Sensoren zu konfigurieren. Dieser verteilt die Konfiguration automatisch an alle anderen Knoten, die über bidirektionale IP-Verbindungen miteinander in ständigem Kontakt stehen. Um einen neuen Knoten in den Cluster einzubinden, genügt es, ihn mit einem vorhanden Knoten zu verbinden. Auf Basis der Einstellungen überwachen alle Nodes parallel das gesamte Netzwerk und speichern die Resultate jeweils in einer eigenen Datenbank ab. Dies gilt auch für die Failover-Nodes, die dadurch nicht nur im Fehlerfall bereitstehen, sondern fortlaufend ihre eigenen Daten sammeln, wodurch als zusätzlicher Nutzen Monitoring-Daten aus verschiedenen Perspektiven zur Verfügung stehen, beispielsweise unterschiedliche Ping-Zeit-Messungen zu einem Server, je nachdem, über welches Netz die Verbindung hergestellt ist. Darüber hinaus stehen so selbst bei einem kompletten Datenverlust auf einem Knoten immer noch Konfiguration und Monitoring-Ergebnisse auf den anderen Cluster-Nodes bereit. Der Administrator kann das gesamte Monitoring via Web-Interface auf dem Master Node zentral managen. Fällt der Master Node aus, übernimmt automatisch einer der Failover Nodes dessen Rolle und sorgt dafür, dass Benachrichtigungen und Berichte unterbrechungsfrei zur Verfügung stehen. Durch ein intelligentes internes Management werden die Rollen wieder getauscht, sobald der der Master Node erneut zur Verfügung steht. Bricht der Server des Master Node beispielsweise durch einen Hardwaredefekt komplett zusammen, kann ein solcher temporärer Master Node auch dauerhaft die Master-Rolle übernehmen. In der Regel ist ein Failover-Cluster-System reaktiv konzipiert, das heißt, die Failover Nodes befinden sich während des regulären Betriebs im Standby und werden erst beim Ausfall des Master Nodes aktiviert. Die PRTG-Entwickler haben ein anderes Herangehen gewählt. Alle Failover Nodes sind permanent aktiv und überwachen parallel zum Master Node das Netzwerk. Fazit Um Hochverfügbarkeit im Netzwerk zu gewährleisten, sind zusätzliche Ressourcen zu schaffen. Virtualisierung ist eine der möglichen Methoden, birgt aber selbst Risiken, die die Ausfallsicherheit gefährden. Unternehmen sollten dennoch nicht Hals über Kopf in zusätzliche Hardware investieren, sondern auf Monitoring-Daten gestützte Einkäufe tätigen, die dem tatsächlichen Bedarf entsprechen.

Hochverfügbares Monitoring im Multi-Location-Cluster: Die Ladezeit einer Website, kontinuierlich gemessen von verschiedenen Kont