Welche Arten von Speicher eignen sich am besten für die verschiedenen Workloads, die bei maschinellem Lernen, künstlicher Intelligenz (KI, ML) und Analytics zu verzeichnen sind? Dies umfasst Datei-, Block-, Object- und Cloud-Speicher. Was die Vor- und Nachteile beziehungsweise Einschränkungen bei den einzelnen Speicherarten sind, erläutert Patrick Smith, EMEA CTO bei Pure Storage.
Eine ML-Architektur muss das richtige Gleichgewicht zwischen den Computer-Ressourcen und der Datenplattform finden, wobei der zunehmende Einsatz von GPU- und IPU-Technik massive Parallelität bedeutet, die durch viele Tausende von Cores angetrieben ist. Dies hat zu einer zunehmenden Nutzung von File-Services und in letzter Zeit zu einer Bewegung hin zu Objects geführt. Beide müssen eine hohe Performance und skalierbare Kapazität bieten, während zu den Vorteilen von Objects ein einfaches Management gehört. Eine einzige Plattform, die native File- und Object-Services bei Performance und parallelen Prozessen anbietet, ermöglicht den Übergang von File- zu Object-Services ohne ein kostspieliges Rip-and-Replace-Verfahren, das den Druck auf die Budgets verringert.
In der Welt von Machine Learning haben wir in der Regel eine Reihe von verschiedenen Speicherplattformen gesehen, die in der Daten-Pipeline zur Unterstützung der verschiedenen Phasen (Ingest, Clean & Transform, Explore und Train) im Einsatz sind. Diese verfügen über sehr unterschiedliche Eigenschaften in Bezug auf die Art und Weise, wie die Daten geschrieben sind oder wie man auf sie zugreift. Sicher fügen unterschiedliche Plattformen einen Overhead bei der Komplexität des Managements und bei der Fragmentierung von Daten hinzu. In einer idealen Welt würde eine einzige Speicherplattform die gesamte Pipeline unterstützen. Die richtige Wahl zu treffen bedeutet, sowohl kleine als auch große Dateigrößen sowie sequentielle und zufällige Zugriffsprofile zu unterstützen und in verschiedenen Phasen eine starke Tendenz zum Schreiben oder Lesen von Daten zu haben. Tests unter realen Bedingungen sind für die Auswahl der richtigen Datenplattform unerlässlich.