Hochverfügbarkeit und Risikobewertung

Ausfallsicherheit mit Augenmaß

10. Juli 2014, 6:00 Uhr | Henning von Kielpinski, Head of Business Development bei Consol, www.consol.de (pf)

Unternehmen aus unterschiedlichen Branchen und mit verschiedenen Geschäftsmodellen benötigen Lösungen für einen störungs- und unterbrechungsfreien Betrieb ihrer IT. Beeinträchtigungen und Ausfälle, die für das eine Unternehmen durchaus "akzeptabel" sein können, sind für ein anderes hochgradig "geschäftskritisch". Das heißt: Hochverfügbarkeit und Ausfallsicherheit stellen keine allgemeingültigen Standards dar, die sich pauschal auf alle Unternehmen anwenden lassen. In der Praxis bewährt hat sich beim Thema Ausfallsicherheit eine grobe Dreiteilung der Absicherungsstufen in "manuelle Hochverfügbarkeit", "normale Hochverfügbarkeit" und "unterbrechungsfreie Hochverfügbarkeit" oder "Zero Downtime". Um herauszufinden, welche Komponenten welche Absicherungsstufe benötigen, bedarf es individueller Analysen aller betroffenen Systeme, der darauf abgebildeten Geschäftslogik sowie der vorhandenen Organisation. Auf diese Weise lässt sich für jedes Unternehmen ein geeignetes und auch bezahlbares Konzept ermitteln. Denn so groß der grundsätzliche Wunsch der meisten Unternehmen nach 100-prozentiger Ausfallsicherheit ist: Sie sehen sich oft begrenzten IT-Budgets gegenüber.   Drei Stufen der Hochverfügbarkeit Auf der untersten Stufe steht die sogenannte "manuelle" Hochverfügbarkeit. Dabei ist eine Unterbrechung des laufenden Betriebs spürbar, aber sie ist nicht geschäftsschädigend. Bei der manuellen Hochverfügbarkeit muss der Anwender einen Neustart des unterbrochenen Systems manuell in die Wege leiten - beispielsweise einen Server-Reboot. Eine manuelle Hochverfügbarkeit erfordert daher stets die Anwesenheit einer Person, meist eines Administrators, der die Unterbrechung beendet. Diese Hochverfügbarkeitsstufe reicht für solche Unternehmen, die keine 24/7-Erreichbarkeit benötigen, sondern bei denen die Betriebsbereitschaft beispielsweise in den offiziellen Bürozeiten ausreichend ist. Auf der mittleren Stufe findet sich die "normale" Hochverfügbarkeit. Dabei ist eine kurze Unterbrechung zu spüren, die jedoch nicht gleich geschäftsschädigend ist und die sich durch einen automatischen Restart wieder beheben lässt. Eine solche Hochverfügbarkeit gilt immer dann als ausreichend, wenn kleine Verzögerungen in der Erreichbarkeit für den Benutzer durchaus akzeptabel sind. Die dritte und höchste Stufe ist die "unterbrechungsfreie" Hochverfügbarkeit, auch Zero Downtime genannt. Dabei bemerkt der Anwender einen kurzzeitigen Ausfall nicht, da das betroffene System von einem anderen komplett übernommen wird. Zero Downtime ist überall dort gefordert, wo die permanente Erreichbarkeit und das ständige Funktionieren der IT unbedingt erforderlich sind. Dies ist zum Beispiel in großen, auch länderübergreifenden Produktionsbetrieben mit hohem Automatisierungsgrad der Fall.   Risikobewertung Um herauszufinden, welche Stufe der Hochverfügbarkeit für welche Systeme sinnvoll oder notwendig ist und welche technische Lösung dafür passt, sollte die Risikobewertung immer am Anfang eines jeden Projekts in diesem Bereich stehen (siehe Kasten auf Seite 20). Die technische Lösung kommt erst danach. Dabei gilt pauschal: Je kritischer und individueller die Informationen und Prozesse sind und je vernetzter die Systeme, desto mehr ist auf die Absicherung des unterbrechungsfreien Betriebs zu achten. Im Folgenden stellt der Beitrag unterschiedliche technische Konzepte für die normale und die unterbrechungsfreie Hochverfügbarkeit vor.   Normale Hochverfügbarkeit: Clustering Ein klassischer Ansatz für eine "normale" Hochverfügbarkeit, die meist im Bereich zwischen 99,5- und 99,9-prozentiger Erreichbarkeit zu finden ist, besteht im Clustering. Dabei laufen Anwendungen auf zwei identischen Systemen in einem Cluster, also einer Systemgruppe. Beim Ausfall eines Systems übernimmt das zweite im Cluster. Clustering eignet sich für alle Anwendungen, bei denen kurze Unterbrechungen tolerierbar sind, da sie keine sofortigen negativen Auswirkungen haben. Ein Fall aus der Praxis, bei dem sich eine normale Hochverfügbarkeit über Clustering erreichen lässt und ausreichend ist, sind zum Beispiel die Web-Portale von Versicherungen, Banken und Finanzdienstleistern. Darüber können Mitarbeiter in Filialen oder im Außendienst Kunden neu aufnehmen, Verträge abschließen, Konten eröffnen und vieles mehr. Im Backend arbeitet dabei eine Vielzahl an Web-Application-Servern und Datenbanken mit vielen Millionen Datensätzen. Ist zum Beispiel ein Application-Server überlastet, übernimmt sein Pendant im Clusterverbund. In dieser Zeit spürt der Anwender lediglich eine kleine zeitliche Verzögerung. Sind an eine komplexe Web-Applikationslandschaft auch produktionsrelevante Prozesse angeschlossen, benötigen Unternehmen Zero-Downtime-Konzepte. Denn dort gilt es, nicht nur einen Ausfall, sondern auch einen dadurch hervorgerufenen Datenverlust zu vermeiden. Das heißt, es müssen sich alle betroffenen Systeme permanent synchronisieren, damit beim Ausfall eines Systems ein anderes nicht nur die Funktion übernehmen kann, sondern auch auf dem gleichen Informationsstand ist und eine Aufgabe im aktuellen Status weiterverarbeiten kann. Technisch lässt sich dies erreichen, indem die komplette Web- und Applikations-Server-Landschaft auf geclusterte, aktive und passive Server mit vorgeschalteten Load Balancern verteilt wird. Ein derartiges Szenario kommt in der Praxis zum Beispiel dann vor, wenn Unternehmen sowohl ihre Außendarstellung als auch die internen oder produktionsrelevanten Prozesse wie das Bestellwesen mit Zulieferern über eine Web-Applikationslandschaft steuern.   User-basierendes Routing und Reverse Proxy In manchen Fällen muss neben der Hochverfügbarkeit auch die Konsistenz der Informationen gewährleistet sein, also ein System zu jedem Zeitpunkt wissen, in welchem Status es sich befindet und befunden hat. Ein technischer Lösungsansatz dafür mit einer 100-prozentigen Ausfallsicherheit von Application-Server-Instanzen ist die Implementierung einer speziellen User-basierenden Routing-Lösung und die Verwendung eines Reverse Proxys. Dort erlauben es die darunterliegenden Mechanismen, bestehende Sessions von einem ausgefallenen auf andere Systeme zu replizieren. Solche Zero-Downtime-Konzepte eignen sich zum Beispiel für die Absicherung von Systemen, die rund um die Uhr erreichbar sein müssen, und bei denen im Backend zahlreiche weitere Systeme angeschlossen sind, die sehr viele Benutzer verwalten und steuern. Ein typisches Beispiel aus der Praxis sind Kundenportale von Telekommunikationsanbietern. Über diese registrieren sich die Kunden, melden sich an, kaufen Produkte oder Dienstleistungen, verwalten ihre Konten und vieles mehr. Ein Ausfall würde hier nicht nur einen hohen Imageschaden und die Unzufriedenheit der Kunden, sondern auch finanzielle Verluste bedeuten.   DNS und IP Round Robin Eine unterbrechungsfreie Hochverfügbarkeit lässt sich auch auf der Basis des DNS (Domain Name System) mit dem Verfahren "IP Round Robin" realisieren. Dabei sind eingehende Anfragen auf eine Reihe von Servern gleichmäßig verteilt, wobei die Verfügbarkeit der Server kontinuierlich überwacht wird. Dieses Verfahren kommt zum Beispiel dann zum Tragen, wenn der E-Mail-Verkehr eines Unternehmens sowohl technisch als auch inhaltlich abgesichert sein muss - das heißt, wenn keine Unterbrechung im E-Mail-Verkehr mit der Möglichkeit des Verlusts von Nachrichten entstehen darf, da diese geschäftsrelevante Informationen wie Aufträge, Bestellungen, Absprachen etc. enthalten.   Fazit Die Beispiele zeigen, dass die technische Bandbreite an Lösungen für Hochverfügbarkeit und Ausfallsicherheit groß ist. Um schließlich eine passende und bezahlbare Lösung zu finden, sollte ein Unternehmen daher genau analysieren, welche die jeweils kritischsten Anwendungen sind und wie hoch das Risiko ist, sollten diese kurz oder länger ausfallen. In der Praxis zeigt sich dabei oft, dass Unternehmen nicht alle Risiken gleichermaßen absichern können und müssen.

E-Mail-Lösung bei einem Automobilhersteller mit Zero Downtime auf der Basis des DNS mit dem Verfahren IP Round Robin.

Mithilfe eines Reverse Proxys lassen sich bestehende Sessions von einem ausgefallenen auf andere Systeme replizieren.
LANline.

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Cognizant

Matchmaker+