Datenredundanz auf Primärspeicher vermeiden

KI und Chip-basierte Mustererkennung

18. August 2020, 07:00 Uhr   |  Robert Meiners/am

KI und Chip-basierte Mustererkennung
© Huawei

KI-Chip Ascend 310 des Dorado All-Flash-Storage-Systems.

Eines der größten Probleme bei hochleistungsfähigem und wertvollem Block-Primärspeicher ist die Volumenauslastung. Viele Speichersysteme sind mit hohen Datenredundanzen belastet, was nicht nur IT-Administratoren ärgert, sondern auch diejenigen im Unternehmen, die die anspruchsvollen Budgets für Primärspeicher zur Verfügung stellen.

Neue Techniken schaffen Abhilfe, darunter künstliche Intelligenz (KI) und eine hocheffiziente Mustererkennung. Der Vorteil: Auch im Primärspeicher kann jetzt bei gleicher Leistung  eine anschauliche Deduplizierung erfolgen – ermöglicht durch Chip-basierte (ASIC) Verfahren.

Eine Investition in die Deduplizierung auf Primärspeichersystemen rechtfertigt sich dann, wenn der Redundanzfaktor effizient sinkt. An dieser Stelle kommen meist externe Spezialisten ins Spiel, die über die Werkzeuge für eine genaue Datenanalyse verfügen. Fallen die Ergebnisse im Sinne einer möglichst hohen Deduplizierung positiv aus, wird es durchaus lukrativ, künftig auf moderne Primärspeicher mit integrierter KI und Mustererkennung zu setzen.

Sinnvolle und sinnlose Daten-Redundanz im RZ

Beim Begriff ‘Redundanz‘ kann man von IT-Administratoren sehr unterschiedliche Spontanreaktionen erwarten – je nachdem, an welche Form der mehrfachen Datenhaltung IT-Spezialisten denken. Generell unterscheidet man zwischen gewünschter und ungewünschter Redundanz.

Gewünschte Redundanz dient einem Unternehmen als Sicherheit. Eine Variante, die insbesondere noch in kleineren Unternehmen zum Einsatz kommt, ist RAID 1. Bei diesem Verfahren erfolgt eine Spiegelung der Festplatten eins zu eins kontinuierlich im laufenden Betrieb. Damit sind beim Ausfall einer Festplatte alle Daten noch auf der zweiten Festplatte vorhanden. Daraus ergibt sich neben dem einfachen Datenschutz auch ein Grundschutz für Ausfallsicherheit. Beim Ausfall einer Festplatte übernimmt die andere funktionierende automatisch, gewissermaßen „on the fly“.

In moderneren und größeren Unternehmen sieht die gewollte Redundanz wesentlich komplexer aus. Dort erfolgt eine aufwendige Spiegelung und Sicherung über unterschiedliche Standorte hinweg. Man versucht, die Ausfallsicherheit so weit wie möglich mit unterschiedlichsten Techniken zu senken. Redundanz dient hauptsächlich der Business Continuity, einer der wichtigsten Disziplinen in modernen und verantwortungsvollen Unternehmen.

Ungewünschte und damit sinnlose Redundanz ist allerdings ein Thema, das IT-Administratoren und auch dem Controlling intensiv beschäftigt. Sie verursacht ineffiziente Arbeit im Rechenzentrum, belastet die primären Speicherressourcen und kostet vor allem viel Geld.

Kernsysteme, Anwendungen, Datenbanken und weitere wichtige Komponenten für die Geschäftsprozesse des Unternehmens sind meist in Händen der IT-Verantwortlichen und sie wissen, welche Daten dort vorhanden sind, wie das Datenwachstum ist und wann sie zusätzliche Speicherressourcen planen müssen. Dazu gehören Terabyte-große Datenbanken beispielsweise von Oracle oder SAP, die Daten etwa aus der Personalabteilung, aus dem Finanzwesen, aus der Logistik oder aus der bereits digitalisierten Produktion beherbergen. Und da die meisten dieser Daten an Datenbankanwendungen geknüpft sind, liegen die Daten selten ungewollt redundant vor.

Jedoch verhält es sich bei File-Services, beispielsweise aus Office-Anwendungen, völlig anders. Mitarbeiter produzieren in erhöhtem Maße unstrukturierte Daten. Dazu gehören Videos, aufwendige Präsentationen, Mitschnitte aus Online-Konferenzen und vor allem Office-Dokumente, die eine oft mehrmalige Speicherung erfordern. Wie viele dieser Daten allein durch den Hin- und Herversand über das Mail-System redundant sind, also mehrfach auf den Speichersystemen liegen, entzieht sich der Kenntnis der Administratoren weitestgehend. Und weil auch diese Daten als systemrelevant eingestuft sind, liegen sie selbstverständlich auf den hochleistungsfähigen Primärsystemen, die ihrerseits alle Daten nochmals durch die gewollte Redundanz verdoppeln.

Rechenbeispiel: sinnlose Datenredundanz

Um das Ausmaß an ungewollter Redundanz beziehungsweise mehrfacher Speicherung von Daten zu verdeutlichen, hilft ein simples Beispiel: In einem Unternehmen mit rund 2.000 Mitarbeitern erscheint jeden Montag der wöchentlich neue Kantinenspeiseplan. Dieser steht in schöner Aufmachung als gestaltetes PDF im Intranet zur Verfügung, auch als Download. Da das Intranet für das Unternehmen eine systemrelevante Plattform darstellt, ist dieses selbstverständlich gespiegelt. Natürlich erfolgt auch ein Backup. Damit liegt der Speiseplan bereits viermal im Unternehmen vor. Zweimal auf den redundanten Primärsystemen und zweimal auf den redundanten Backups. Nun lädt die Hälfte der Mitarbeiter den Speiseplan vom Intranet in das Home-Verzeichnis, weil dies schneller und bequemer ist. Ergo ist die Datei theoretisch nun 1.004 Mal auf den IT-Systemen gespeichert.

Tatsächlich sind aber auch die Home-Verzeichnisse der Mitarbeiter systemrelevant und auf den Primärsystemen gespiegelt inklusive Datensicherung. Damit ist der Speiseplan insgesamt 4.004 Mal im Rechenzentrum gespeichert. Und da das PDF nett gestaltet ist und eine Dateigröße von 3 MByte aufweist, ergeben sich daraus 12.012 MByte an ungewollten Redundanzen – pro Woche. Über das Jahr sind das rund 610 GByte. Mehr als ein halbes TByte nur für einen Speiseplan! Kaum auszudenken wie die Speicher durch Dateiformate wie Präsentation, Film und Ton belastet werden, wenn Versionen irgendwo auf den Systemen gespeichert sind – selbstverständlich redundant und auch gesichert.

Seite 1 von 2

1. KI und Chip-basierte Mustererkennung
2. Der Ausweg „künstliche Intelligenz“

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen