Die Supercomputer des Leibniz Rechenzentrums bekommen 2018 Zuwachs durch einen Rechner der neuesten Generation mit über 26 Petaflops. Der SuperMUC NG soll im November in die Top 10 der schnellsten Rechner der Welt vorstoßen. Lenovo kühlt die rund 13.000 Prozessoren – aus gutem Grund – mit Warmwasser.

Im Dezember 2017 unterzeichneten die Verantwortlichen in München die Verträge für den Bau und die Lieferung des Hochleistungsrechners SuperMUC Next Generation (NG) am Leibniz Rechenzentrum (LRZ). Bereits seit dem Umzug des Instituts im Jahr 2006 von der Münchner Innenstadt in den Vorort Garching betreiben die Technische Universität München und die Ludwig-Maximilians-Universität im eigens gebauten „Twin Cube“ Forschung mit Supercomputern, insgesamt schon seit 1993. Der bisherige SuperMUC nahm 2012 den Betrieb auf, wurde 2015 erweitert und kommt inzwischen auf eine Rechenleistung von 6,4 Petaflops. Schon in der ersten Instanz stellte er Europas schnellsten Rechner dar.

Dieses Ziel wollen die Forscher auch mit dem von Grund auf neu entwickelten SuperMUC-NG erreichen, der Ende 2018 die Arbeit aufnehmen soll. Diese nächste Generation soll auf eine theoretische Spitzenrechenleistung von 26,7 Petaflops kommen. In der derzeit aktuellen Top-500-Liste der schnellsten Supercomputer der Welt käme das System damit auf Platz 3 hinter den beiden chinesischen Maschinen Sunway Taihu Light und Tianhe-2. Soviel Leistung benötigen die Wissenschaftler in München auch: Bereits mit dem bisherigen SuperMUC Phase 2 werden dort nicht nur die klassischen Anwendungsgebiete eines HPC-Systems wie Astrophysik und Strömungsmechanik abgedeckt.

Der Wasserfluss durch das CPU-System. Bild: Lenovo

Neue Anforderungen an technische Informatik stellen zunehmend auch Medizin- und Umweltforschung. So wurde eine am LRZ durchgeführte Simulation des Sumatra-Erdbebens, das 2004 an den Küsten des indischen Ozeans schwere Verwüstungen durch einen Tsunami hervorrief, auf der Fachkonferenz SC17 mit dem Titel „Best Paper“ geehrt. Diese Arbeit ermöglichte ein interdisziplinäres Team der beiden Münchner Universitäten LMU und TUM, das die bisher umfassendste und größte Simulation eines Erdbebens erstellte. Der SuperMUC war dafür das entscheidende Werkzeug.

Damit eine solche Forschung auch weiterhin möglich bleibt, arbeiten das LRZ, Intel und Lenovo als Partner beim Bau von SuperMUC-NG zusammen. Ein entscheidendes Element des neuen Rechners ist die Kühlung mit zuvor nicht auf Frischwassertemperaturen abgekühltem Wasser. Diese im Jargon auch „Warmwasser-Kühlung“ genannte Technik hat entscheidende Vorteile bei der Energieeffizienz: Rund 35 Prozent Einsparung an Energiekosten gegenüber herkömmlichen Kühlsystemen ergaben sich bei den bisherigen SuperMUCs. Mit SuperMUC-NG sollen es rund 45 Prozent gegenüber einem herkömmlichen Kühlsystem vergleichbarer Größe werden.

Mit diesem Effizienzgewinn sollte es auch für eine gute Platzierung in der Liste Green500 der umweltverträglichsten Supercomputer reichen – wo genau, werde sich zeigen. Dabei hilft, dass Lenovo die Fähigkeiten der neuen Xeon Scalable Processors (Skylake-SP) ausreizen will. Auch in diesem Punkt profitieren die Forscher des LRZs von der innovativen Kühlung: Durch die effiziente Kühlung der CPUs lassen sich die Prozessoren deutlich übertakten, was die Leistung temporär noch weiter steigert. Eine Anpassung von Takt und Leistungsaufnahme der CPUs ist so zur Laufzeit möglich. Die Software „Energy Aware Run-Time“ (EAR) von Lenovo erlaubt dies auch bei laufenden Anwendungen. Der Energiebedarf von Rechenaufgaben lässt sich so auch vorab genau definieren. Die bisherige, meist rein nach Verfügbarkeit von Rechenleistung vorgenommene Partitionierung eines Supercomputers zeigt sich so um ein entscheidendes Element erweitert. Die Verteilung der Aufgaben übernimmt ein Batch-Queuing-System auf Basis von SLURM unter Suses Enterprise Linux 12 mit HPC-Modul.

Für den SuperMUC-NG ist die Kontrolle des Energiebedarfs nicht nur hinsichtlich der Kühlung der Chips wichtig. Schon seit der Installation des ersten direkt wassergekühlten Systems von 2012 nutzt die Anlage die Abwärme zur Heizung der Gebäude des LRZs. Inzwischen versorgt man auch einige in der Nähe gelegene Haushalte mit Fernwärme.

Beim NG kommt zusätzlich noch eine Adsorptionskältemaschine hinzu, die im Sommer zur Kühlung nicht nur des Rechners, sondern auch anderer Komponenten des LRZs dient. Hersteller der Adsorptionskältemaschine ist das deutsche Unternehmen Fahrenheit. Diese Kälteanlage nutzt die Abwärme des Rechners, um Kälte zu erzeugen, und spart dadurch einen Großteil des sonst nötigen Stroms und Frischwassers. Die Maschine entnimmt per Wasserkühlung die Abwärme von den CPUs bei etwa 52°C und nutzt sie, um Kaltwasser mit rund 21°C zu erzeugen. Mit dem Kaltwasser kühlen die RZ-Betreiber Storage- und Netzwerkkomponenten, die bei niedrigeren Temperaturen laufen müssen als die Rechnerkerne.

Das Funktionsprinzip der Adsorptionskühlung beruht im Grundsatz auf Verdunstungskälte: Eine spezielle wasseranziehende Substanz, ein sogenanntes Adsorbens, saugt Wasserdampf von einem Wärmetauscher. Dabei verdunstet das Wasser, wodurch Wärme entzogen wird und Kälte entsteht. Durch die Zufuhr von Wärme regeneriert sich das Adsorbens und hält so den Kühlprozess aufrecht. Die besondere Herausforderung beim SuperMUC-NG ist es, die Adsorption mit den relativ niedrigen Abwärmetemperaturen der CPUs zu betreiben. Zu diesem Zweck hat Fahrenheit, ein Spinoff des Fraunhofer Instituts, für solche Anwendungen maßgefertigte Adsorbentien entwickelt. Dazu zählen Zeolith-Kristalle, eine Stoffgruppe, die sich für Adsorption sehr gut eignet. In einem proprietären Verfahren bringt Fahrenheit die Zeolith-Schicht so auf die Wärmetauscher auf, dass die Effizienz der gesamten Anlage ein Maximum erreicht.

Bei einer geschickten Dimensionierung erreicht die Adsorptionskühlung ähnliche Werte wie eine Freikühlung. Bild: Lenovo, LRZ

Effizienz soll der neue Supercomputer nicht nur bei der Energie bieten, sondern auch bei der Anpassung auf die sehr unterschiedlichen wissenschaftlichen Aufgaben. Daher sind die einzelnen Nodes verschieden ausgelegt. Zwar sind alle Knoten mit zwei Sockeln für einen 24-Kern-Xeon versehen, sie verfügen jedoch über differenzierte RAM-Bestückung. 6.400 Rechner vom Typ Lenovo ThinkSystem SD 650 DWC verfügen über 96 GByte, sie dienen als sogenannte Thin Nodes. Hinzu kommen noch 144 Fat Nodes mit je 768 GByte. Der Vergleich mit einem Desktop-PC: Schon pro Kern ergibt dies bei den dicken Knoten 16 GByte, was mehr ist, als das Gros der Office-Rechner heute benötigt. Beim NG kommt dazu auch noch eine Cloud-Komponente, die einen eigenständigen Cluster darstellt. Sie besteht aus 64 Nodes, die Hälfte davon ist mit jeweils zwei Volta-100-GPUs von Nvidia versehen.

Schnelles Storage-System

Soviel Rechenleistung erfordert eine schnelle Vernetzung und ein fixes Storage-System. Für ersteres sorgt Intels Omnipath-Fabric mit 100 GBit/s, das bei den neuen Xeons direkt an den Prozessor angebunden ist. Dies sorgt für geringe Latenzen und einen reduzierten Energiebedarf auch beim Netzwerk, da zusätzliche Transceiver-Bausteine entfallen können. Kostengünstig ist die Lösung auch, denn das System kann herkömmliche Glasfasern mit QSFP28-Verbindern verwenden. Wie bei den Nodes gibt es auch bei den Datenspeichern Unterschiede: 50 PByte sind es für gewöhnliche Aufgaben, zusätzliche 20 PByte sind für Langzeitspeicherung mit hoher Zuverlässigkeit vorhanden.

Das zweite System ist vor allem auf Big-Data-Analysen ausgelegt. Als paralleles Dateisystem kommt GPFS zum Einsatz, auch bekannt als IBM Spectrum Scale.

Ausblick: Neue Liste

Spannend bleibt, wie weit der SuperMUC-NG die Top500-Liste verändern kann. Die für diese Maschine nächst erreichbare Ausgabe der Liste erscheint im November 2018.

Paul Hoecherl ist Produkt-Manager Data Center Group Deutschland, Österreich und Schweiz bei Lenovo, www.lenovo.com.