Konzepte für die Datensicherung

Mit Level of Paranoia auf Notfälle vorbereitet

7. Juni 2009, 22:56 Uhr | Michael Schmitt/dp Michael Schmitt ist Technology Business Consultant im EMC Centre of Expertise "Data Protection".

Ein Unternehmen muss sich mit dem Schutz seiner Daten auseinandersetzen und auf Risikoszenarien vorbereitet sein. Daten bedürfen der Einteilung zwischen unternehmenskritisch, schützenswert und weniger wichtig. Es gilt abzuwägen, mit welcher Wahrscheinlichkeit eine Katastrophe eintritt und wie teuer der Datenverlust wäre. Diese Einschätzung und die zu ergreifenden Maßnahmen lassen sich in verschiedene " Level of Paranoia" (LoP) einteilen.

Bei einem sehr niedrigen LoP liegen die Daten beispielsweise auf einer ungespiegelten
Festplatte. Nachts führt das Backup-System eine inkrementelle Sicherung auf Band durch und am
Wochenende eine Vollsicherung. Für die Datenbereitstellung entstehen geringe Kosten. Fällt die
Festplatte jedoch aus, gehen alle Änderungen seit der letzten Sicherung verloren. Bei einem hohen
LoP sollte ein Unternehmen die Daten besser auf einem hochverfügbaren Speichersystem halten. Eine
lokale Spiegelung stellt sicher, dass der Ausfall einer Festplatte nicht zum Datenverlust führt. Um
einer Zerstörung des Storage-Systems vorzubeugen, sollte es die Daten zudem in eine andere Lokation
spiegeln. Ein Continuous-Data-Protection-System (CDP) könnte darüber hinaus alle Änderungen in
Echtzeit protokollieren und bei einem logischen Fehler auf die aktuellste intakte Version
zurückgreifen. Darüber hinaus gibt es möglichst noch eine Sicherungskopie auf Band, die in einem
Tresor verwahrt wird. Einen unterbrechungsfreien Datenzugriff erlauben zum Beispiel lokale
Server-Cluster: Beim Ausfall eines Servers springt automatisch ein anderer für ihn ein. Solche
Cluster lassen sich zusätzlich noch über ein Remote Clustering absichern.

Die wichtigste Kennzahl für jede Datenkategorie ist die Recovery Time Objective (RTO). Sie legt
fest, bis zu welchem Zeitpunkt bestimmte Daten wiederhergestellt werden können. Die Recovery Point
Objective (RPO) definiert den Zeitraum zwischen zwei Datensicherungen. Um die individuellen
Sicherheitsanforderungen zu erfüllen, muss die IT-Abteilung im Vorfeld die Anzahl der nötigen
Sicherungen und die Sicherungslösung genau definieren. Dazu sollten sie auch die Ressourcen für
eventuelle Recoveries einplanen. Außerdem ist zu klären, ob für ein wichtiges Recovery
gegebenenfalls ebenso wichtige Backups abgebrochen werden dürfen. In Bezug auf die Verfügbarkeit
des Backup-Systems spielt vor allem die Sicherung der Log-Dateien wichtiger Datenbanken eine Rolle.
Wenn das File-System für die Log-Dateien voll läuft, bleibt die Datenbank stehen. In einigen Fällen
ist es nötig, für die Auslegung des Backup-Servers ein Cluster-System vorzusehen, um den
Backup-Service für diese Dateien mit einer möglichst hohen Verfügbarkeit einzurichten.

Definition von SLAs

Nach der Untersuchung der Einflussfaktoren können Service Level Agreements (SLAs) vereinbart
werden. In diesen weist das Projektteam den einzelnen Kennzahlen konkrete und verbindliche Werte
zu. Dazu kann es zum Beispiel Tier-Level für die verschiedenen Anwendungen festlegen, um dann für
jeden Tier-Level Kennzahlen festzulegen, die darstellen, wie schützenswert die Daten einer
Kategorie sind. Bei der Bestimmung der SLAs sollte das Team auch Szenarien wie das Rolling Disaster
sowie Single Points of Failure (SPoF) berücksichtigen. Das Rolling Disaster ist ein spezielles LoP.
Denn dabei tritt die Katastrophe nicht zu einem bestimmten Zeitpunkt ein, sondern ein Ereignis
zieht ein weiteres nach sich. Erst das Ende der Ereigniskette begründet das eigentliche Desaster:
Dies kann ein Schreibfehler auf einer Komponente eines RAIDs sein, der sich auf das gesamte RAID
auswirkt, oder der Ausfall einer CPU in einem Mehrprozessorsystem, der zu einer Mehrbelastung der
übrigen CPUs führt, die dann sukzessive ausfallen. Vor einem Rolling Disaster kann eine Vermeidung
von SPoF nicht schützen. Dennoch ist die SPoF-Analyse ein wichtiger Baustein bei der Entwicklung
von Disaster-Recovery-Lösungen. Denn wenn wichtige Komponenten eines Systems SPoFs sind, sollten
sie auf jeden Fall redundant ausgelegt sein.

Daten und ihre Verfügbarkeit sind Gefahren krimineller und natürlicher Ursachen ausgesetzt. Die
einfachste natürliche Katastrophe ist der Stromausfall. Je nach LoP gibt es verschiedene Methoden,
sich dagegen zu schützen. Eine Unterbrechungsfreie Stromversorgung (USV) ermöglicht bei einem
Stromausfall ein geordnetes Herunterfahren der Server. Zwei getrennte Stromversorgungen im RZ oder
die Bereitstellung eines Notstromaggregats ermöglichen einen unterbrechungsfreien Betrieb.

Einen möglichen Server-Ausfall kann ein Unternehmen mit einem Server-Cluster abfangen. Dabei
übernimmt beim Ausfall eines Servers automatisch ein anderer im Cluster dessen Funktion. Alternativ
könnte das Unternehmen mit einem Standby-Server-Konzept kurze Ausfallzeiten in Kauf nehmen, um die
Kosten der Cluster-Lösung einzusparen.

Bei der SPoF-Analyse sollte das Team alle Verbindungen mit einbeziehen. Denn Leitungsausfälle im
WAN oder ein Ausfall von Netzwerkkomponenten können den Zugriff auf wichtige Daten behindern. Für
kritische Daten ist dies oft die aufwendigste und kostspieligste Komponente in der Strategie zur
Katastrophenvermeidung. Auch Anwenderfehler wie das irrtümliche Löschen einer Server-Partition, das
versehentliche Betätigen des Not-Aus-Schalters im Rechenzentrum oder das falsche Beschalten im
Patch-Feld können einen Ausfall hervorrufen. Es ist fast unmöglich, alle Szenarien zu verhindern.
Doch wenn es tatsächlich zu einem Datenverlust kommt, sollten die Daten auf verschiedene Weise
wieder herstellbar sein.

Backup-Konzepte

Das klassische Backup auf Bandlaufwerken ist eine Option, wenn die Struktur der zu sichernden
Daten diesem Ansatz entgegenkommt. Bei einer großen Anzahl monolithischer Daten, die leicht
parallelisiert werden können, ist die Performance moderner Bandlaufwerke kaum zu schlagen. 25
LTO-4-Laufwerke, die optimal ausgelastet sind, erreichen einen Datendurchsatz von etwa 3 GByte/s.
Damit können bis zu 10 TByte/h gesichert werden. Eine Bandlösung ermöglicht die Auslagerung
spezieller Daten in einen gesicherten Bereich. Alternative Lösungen führen das Backup auf
Disk-basiertem Storage durch. Das spart Rüst- und Positionierungszeiten bei der Wiederherstellung
der Daten.

Ein Sonderfall der Disk-basierten Backup-Lösungen ist die Sicherung via Snapshots, die die
Wiederherstellungszeit erheblich verkürzen. Diese Backup-Technik belastet jedoch die produktiven
Storage-Systeme. Denn ein Snap setzt sich aus dem Original und den dazugehörigen Änderungen
zusammen, und dazu benötigt das System die Originaldaten. Führt es einen Restore durch, liest es
sowohl die Originale als auch die Snap-Daten. Tritt in den Originalen ein Defekt auf, können die
Daten aus dem Snap nicht mehr hergestellt werden. CDP ist eine Weiterentwicklung der Snap-Technik
und schreibt Änderungen, die es auf die produktiven Storage-Systeme schreibt, in einem sekundären
Storage-System fort. Dies ermöglicht eine Wiederherstellung für jeden beliebigen Zeitpunkt.

Darüber hinaus bietet es sich an, mit Deduplizierung Speicherplatz einzusparen und auch die
anderen Komponenten des Backup-Prozesses zu entlasten. Am Markt haben sich zwei Konzepte etabliert:
Die Target-based-Deduplication findet allein auf dem Backup-Medium statt und reduziert auch nur den
Platz für die gesicherten Daten. Das System erkennt redundante Blöcke und ersetzt diese durch
Verweise auf bereits existierende Daten. Die Source-based-Deduplication erfolgt an der Quelle und
entlastet damit auch das Netzwerk und reduziert die CPU-Last auf den Servern.

Während die Datensicherung auf die Wiederherstellung unternehmenskritischer Daten abzielt,
fokussiert das Disaster Recovery auf die Wiederherstellung der darunterliegenden Systeme. In diesem
Zusammenhang wird oft von Bare Metal Recovery (BMR) gesprochen. Dabei können die meisten Lösungen
ein System nur auf identischer Hardware problemlos wieder herstellen. Oft verursacht aber eine
ausgefallene Komponente, die nicht mehr in der ursprünglichen Form verfügbar ist, einen
Systemausfall. Da viele BMR-Lösungen die System-Partition als Image abspeichern, ist die Anpassung
des alten Images an die neue Umgebung aufwendig. Als Alternative bietet sich die Profilsicherung
an. Diese verwaltet wichtige Kennzahlen des Systems in einer Datenbank. Solche Lösungen bestehen
aus einem Image des Betriebssystems, das in hardwareunabhängiger Form vorliegt, und einem Profil
aller relevanten Parameter des wiederherzustellenden Systems. Tritt beim Disaster Recovery eine
Hardwareänderung auf, werden veraltete Parameter nicht mehr zurückgespielt.

Fazit

Generell sind bei einer LoP-Festlegung zur Vorbereitung auf ein konkretes Desaster drei
Kernfragen zu beantworten. Wie wahrscheinlich ist ein spezielles Desaster-Szenario? Wie teuer wäre
es, wenn das Szenario eintritt? Was kostet es, sich hiervor zu schützen? Die weiteren Schritte
ergeben sich aus den Antworten und dem Level of Paranoia.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+