Startseite > Hardware > Backup in Zeiten von Cloud und Big Data

Techniken und Strategien der Datensicherung

Backup in Zeiten von Cloud und Big Data

9. Juli 2015, 6:00 Uhr | Christian Ruoff, Business Development Manager bei SEP, www.sep.de./pf

Intelligente Techniken ermöglichen heute Backup und Replikation von immer größeren Datenmengen bei nur moderat wachsendem Speicherbedarf. So reduziert beispielsweise Deduplizierung die Datenflut erheblich und ermöglicht sogar Backup-Szenarien in der Cloud. Für die richtige Backup-Strategie im Unternehmen sind aber auch noch einige weitere Aspekte relevant.

Jeder Administrator kennt dies: Bei der Auswertung des Jahresvergleichs sind teilweise zweistellige Wachstumsraten der Datenmengen zu verzeichnen. IDC prognostiziert allein in den kommenden fünf Jahren eine Verfünffachung der jährlich generierten Datenmenge. Diese Informationen sind auch alle zu sichern, um den lückenlosen Betrieb im Geschäftsablauf zu gewährleisten. Zusätzlich müssen die Verantwortlichen rechtliche Aspekte beachten, die für den Geschäftsbetrieb relevant sind. Unternehmen sind gesetzlich verpflichtet, regelmäßig und zuverlässig geeignete, lückenlose Datensicherungsroutinen einzusetzen. Aber wie soll dies vor dem Hintergrund der Wachstumsszenarien möglich bleiben - ohne dafür eine komplexe neue IT-Infrastruktur aufbauen zu müssen?

Softwaregestützte Deduplizierung
Um diesen Problemen zu begegnen, gilt es, intelligente Lösungen zu finden. Beim Backup kommen verschiedene Sicherungsarten zum Einsatz: Zusätzlich zu einem Vollbackup gibt es inkrementelle Sicherungen und differentielle Sicherung. Diese Sicherungsarten setzen auf das Vollbackup auf, das in der Regel an Wochenenden abläuft. Allerdings summieren sich die täglichen Datenmengen bei jeder Sicherung. Dort setzt die Deduplizierung an. Diese Technik ist zwar nicht neu, wird aber immer ausgeklügelter und ist nicht mehr nur wie bisher an teure und proprietäre Appliances gekoppelt. Denn in Zeiten von Software-Defined Storage (SDS) kommen immer mehr Lösungen auf den Markt, die sich abgekoppelt davon mit jeder beliebigen Storage-Hardware aufsetzen lassen.
Die Herausforderungen an die Deduplizierungstechnik beschränken sich nicht nur auf die Reduzierung der Datenmenge. Diese Technik muss die unterschiedlichen Sicherungstypen verarbeiten können, das Speichern der verschiedenen Dateiversionen über die im Backup-Auftrag gewählte Aufbewahrungsfrist verwalten sowie das Löschen von veralteten Dateien aus dem "Dedup"-Pool und den Katalogdateien ausführen. So sichert beispielsweise der auf Backup-Lösungen spezialisierte Hersteller SEP die unterschiedlichsten IT-Landschaften mit seiner Softwarelösung SEP Sesam. Die Erfahrungen aus der Praxis zeigen dabei ein erhebliches Einsparpotenzial für Unternehmen durch das deduplizierte Ablegen der Backup-Daten.
Doch Deduplizierung dient nicht nur zur Einsparung von Speicherhardware bei der Sicherung, sondern stellt auch die Basis dar für eine bandbreitensparende Replikation der gesicherten Daten in verteilte Rechenzentren. Dies ist ein sinnvolles Backup-Szenario für Unternehmen mit Außenstellen, es dient aber auch zur Umsetzung von Cold-Stand-by-Szenarien in der Cloud. Dabei werden unternehmensrelevante Server in Cloud-Rechenzentren mit den aktuellen Daten vorgehalten. Ein weiteres Anwendungsgebiet der Replikation ist die Datensicherung in die Cloud, bei der gewährleistet sein muss, dass sich in einem entfernten RZ liegende, große Datenmengen in einer akzeptablen Zeit ins Unternehmen zurücksichern lassen. Wie die Entwicklung solcher Szenarien voranschreitet, wird sich zeigen.

Variable Blockgrößen geben Flexibilität
Bei der Datendeduplizierung werden Dateien in einzelne Datenblöcke zerteilt. Deduplizierte Daten bestehen aus zwei Elementen: einem Pool von Datenblöcken und einem Katalog, der auf diesen referenziert. Letzterer kennt den ursprünglichen Dateinamen und den Verweis auf die enthaltenen Datenblöcke. Bei der wiederkehrenden Sicherung einer identischen Datei schreibt das System nur noch einen Eintrag in den Dateikatalog mit dem Verweis auf die bereits im Pool gespeicherten Blöcke.
Eine Deduplizierungslösung unterteilt die Datenblöcke innerhalb der Datei wie mit einer Schablone. Die verwendete Deduplizierungstechnik kann dabei mit festen oder variablen Blocklängen arbeiten. Der Unterschied zwischen beiden Techniken wird erst deutlich, wenn sich eine Datei verändert. Die geänderte Fassung besteht dann aus bekannten, bereits gespeicherten und aus unbekannten Blöcken. Beim Abgleich mit festen Blocklängen sind alle Blöcke nach der geänderten Stelle innerhalb der Datei neu zu speichern, weil das Schablonenmuster nicht mehr passt.
Bei flexiblen Blocklängen hingegen lässt sich der Block an der geänderten Stelle der Datei in der Länge verändern, bis die Schablone auf die restliche Datei wieder passt. Die Software analysiert dies durch einen Algorithmus. Somit muss das System nur einige wenige geänderte Blöcke im Pool ablegen. Dies spart zusätzlich spürbar Speicherkapazität ein. Die ressourcensparende Inline-Deduplizierungslösung Si3 von SEP beispielsweise arbeitet mit der Technik variabler Blockgrößen. Durch die softwareseitige Komprimierung erfolgt eine weitere Reduzierung der deduplizierten Datenmenge. Die in der Praxis erzielte Deduplizierungsrate hängt vom Datenzuwachs, von der Änderungshäufigkeit und von der Dauer der Aufbewahrung im "Dedup Store" ab.

Inline- oder Offline-Deduplizierung
Ein weiterer Aspekt ist der Zeitpunkt der Deduplizierung. Die Offline-Variante setzt dabei auf eine Zwischenspeicherung der Quelldaten am Backup-Server. Erst nach Abschluss der täglichen Datensicherung werden die Daten auf ein weiteres Speichermedium dedupliziert. Bei großen Datenmengen kann dies dazu führen, dass ein Backup startet, bevor die nachrangige Deduplizierung abgeschlossen ist. Die Daten lassen sich dann nicht vom Zwischenspeicher löschen.
Einen modernen Ansatz verfolgt die Inline-Deduplizierung. Bei dieser Methode analysiert die Lösung den Datenstrom bereits im RAM-Speicher und legt ihn dann sofort dedupliziert auf dem Sicherungsmedium ab. Durch ressourcenschonende Programmierung lässt sich als Backup-Server weiterhin ein Standardrechner mit erweitertem Arbeitsspeicher verwenden.
Eine flexibel einsetzbare Deduplizierungslösung bietet auch noch weitere Vorteile. Die Lösung von SEP beispielsweise lässt dem Administrator freie Hand, ob der Backup-Server und somit der Storage des Dedup Stores auf Windows oder Linux laufen soll. Zusätzlich lassen sich flexible Speicherlösungen wie Software-Defined Storage nutzen. SDS fasst dabei die unterschiedlichsten Speichermedien zu einem Storage Pool zusammen. Die bestehenden Ressourcen bleiben weiter nutzbar, die Kosten lassen sich spürbar senken, und bei Storage-Erweiterungen kann der Anwender herstellerunabhängig agieren. Dieses Vorgehen sehen beispielsweise auch Gartner-Analysten als zukunftsweisend an.

Das richtige Backup-Medium
Ein weiterer Bestandteil der Backup-Strategie ist die Analyse und Separierung der Daten auf unterschiedliche Speichertechniken. Die schnellste Art, aber aktuell auch die teuerste, ist das Backup auf SSD-Speichern (Solid-State Drive). Diese eignen sich gut für das sogenannte Instant-Recovery-Verfahren, bei dem sich virtuelle Maschinen direkt auf dem Backup-Speicher, ohne Rücksicherung starten lassen. Klassische Festplatten hingegen sind die Wahl für eine zügige Wiederherstellung jeglicher gesicherten Daten, aber in der Vorhaltung und Wartung teurer als Bänder. Letztere kommen in der Regel für Sicherungsdaten zum Einsatz, die für die Langzeitaufbewahrung vorgesehenen sind. Bänder bieten zudem hohe Kapazitäten - im aktuellen Standard (LTO 6) bis 6,25 TByte -, sie sind kompakt, preisgünstig und im ausgelagerten Zustand über jeden Virenbefall und Hacker-Angriff erhaben.

Applikationskonsistente Backups
Bei der Datensicherung ist unbedingt zu beachten, dass diese applikationskonsistent erfolgt. Im Gegensatz dazu steht die Crash-konsistente Sicherung, zur Wiederherstellung eines lauffähigen Systems. Letztere gewährleistet aber nicht unbedingt, dass wirklich alle Daten einer Anwendung oder Datenbank gesichert sind. Nur applikationskonsistente Backups sichern die Daten so, wie es der Hersteller einer Anwendung oder Datenbank verlangt. Denn viele Informationen befinden sich während des Betriebs gar nicht auf Festplatten, sondern im RAM-Speicher der Server. Daher muss die Backup-Lösung das System vorher in einen konsistenten Zustand bringen und danach wegsichern. Dies erfolgt über die Nutzung von Herstellerschnittstellen, die zur Datensicherung angesprochen werden. Nur so lassen sich alle Anwendungsdaten später konsistent wiederherstellen.

Den Ernstfall proben
Ein wichtiger Bestandteil einer Compliance-konformen Backup-Strategie sind regelmäßige Wiederherstellungstests von Systemen. Allerdings vernachlässigen die meisten IT-Verantwortlichen solche Tests. Dabei lassen sich mit Letzeren zwei wichtige Anforderungen erfüllen: Erstens kann die Dokumentation von Wiederherstellungstests rechtlich relevant werden. Zweitens sind geübte IT-Administratoren im Ernstfall wesentlich routinierter und schneller bei der Wiederherstellung unternehmensrelevanter Systeme - die Praxistests verbessern den Wiederanlaufprozess oft entscheidend. Dies schlägt sich in den RTO-Werten (Recovery Time Objective) nieder, also in der definierten Wiederanlaufzeit, die bis zur vollständigen Verfügbarkeit von Applikationen vergehen darf. Die Zeitspanne umfasst dabei nicht nur die Restore-Dauer, sondern den gesamten Recovery-Prozess.
Es empfiehlt sich, den Totalausfall unternehmenskritischer IT-Systemen auf jeden Fall einmal im Jahr zu proben. Generelle Rücksicherungstests sollten - je nach Größe der IT-Umgebung - sogar monatlich stattfinden. Um den Arbeitsaufwand zu reduzieren, ist es sinnvoll, Rücksicherungen von der Datensicherungssoftware automatisch durchführen zu lassen. Backup- und Disaster-Recovery-Lösungen gehören heute zu den tragenden Säulen der IT-Sicherheit in Unternehmen. Moderne und flexible Deduplizierungstechniken erweitern die Speicherkapazität der bestehenden Systeme entscheidend. Neue Techniken vereinfachen die Administration, steigern die Performance und sparen Geld.

Bei der Deduplizierung werden Dateien in Datenblöcke zerlegt. Die in der Praxis erzielte Deduplizierungsrate hängt dabei vom Datenzuwachs, von der Änderungshäufigkeit und von der Dauer der Aufbewahrung im Dedup Store ab.