banner

Blog

Sep 12, 2023

Die NVSwitch-Fabric, die den Hub des DGX H100 SuperPOD bildet

Wenn wir ein System betrachten, denken wir normalerweise von den Rechenmaschinen bis ins kleinste Detail und arbeiten uns dann durch die Feinheiten der Knoten und dann der Verbindung und des Software-Stacks, der es über die Knoten hinweg zu einer verteilten Computerplattform skaliert .

Aber dieses Mal, wenn wir die vielen Ankündigungen durchgehen, die Nvidia auf seiner Online-Veranstaltung GPU Technical Conference 2022 macht, wollen wir auf der mittleren Ebene beginnen, wo die Knoten auf das Netzwerk treffen, und uns nach oben arbeiten, denn das ist es, was Nvidia ausmacht ein echter Konkurrent als Hersteller von Hochleistungs-Computersystemen – also Maschinen, die für die Ausführung von KI-, HPC- und Datenanalyse-Workloads und nicht nur für die traditionelle HPC-Simulation und -Modellierung ausgelegt sind.

Tatsächlich glauben wir, dass die auf der GTC 2022 in diesem Jahr vorgestellten Innovationen Nvidia zu einem der wichtigsten Hauptauftragnehmer für solche Systeme machen werden, die im Exascale-Bereich und darüber hinaus betrieben werden.

Um dieses Spiel zu spielen, muss man über Architektur und große Taschen verfügen, und Nvidia hat eindeutig beides. Da IBM praktisch aus dem Spiel ist, werden Supercomputer der Leistungsklasse auf Hewlett Packard Enterprise, Nvidia und Fujitsu reduziert (letzteres konzentriert sich weitgehend auf das RIKEN Lab in Japan und ein paar andere Zentren, die Chips von den Marken „K“ und „K“ kaufen). Fugaku“-Blöcke) und Atos (das mit seinen BullSequana-Systemen in Europa viele Geschäfte macht). Dell, Lenovo und Inspur konzentrieren sich hauptsächlich auf Maschinen der Kapazitätsklasse, die auf Standardkomponenten basieren und hauptsächlich für die gleichzeitige Ausführung vieler kleiner Aufgaben konzipiert sind, anstatt mehrere große Aufgaben einzeln zu skalieren. Hier spielt offensichtlich auch HPE mit. Und nach einer siebenjährigen Laufzeit und seinem Auftrag als Hauptauftragnehmer für den viel verspäteten „Aurora“-Supercomputer am Argonne National Laboratory ist Intel nicht mehr daran interessiert, Hauptauftragnehmer auf dem HPC-Markt zu sein, und das hat uns das Unternehmen kürzlich gegenüber zugegeben. Auch AMD hat kein solches Interesse gezeigt.

Wir glauben, dass es einen inhärenten Wert hat, ein Komplettanbieter und Systembauer zu sein, wie es Nvidia tut, aber auch Kunden die Möglichkeit zu geben, Systeme mit erstklassigen (oder heutzutage verfügbaren) Komponenten zu bauen oder OEMs oder ODMs damit zu beauftragen es für sie.

Nvidia ist insofern einzigartig, als es Komponenten wie AMD und Intel liefert, aber auch komplette Systeme liefert, wenn Kunden diese kaufen möchten. (Intel nutzte Cray und dann HPE als Systemhersteller, selbst als es Hauptauftragnehmer für die Aurora-Maschine war.) Nvidia hat sich von der reinen GPU-Lieferung zur Entwicklung eigener HGX-Systemplatinen mit NVSwitch-GPU-Speicherverbindung und GPU-Engines entwickelt kann über PCI-Express an X86-Host-Motherboards gekoppelt werden. Dazu kann Nvidia Quantum-InfiniBand-Netzwerke zur Verbindung von Knoten und Spectrum-Ethernet-Netzwerke für die Systemverwaltung und den Zugriff auf das verteilte System nutzen, alles über ConnectX-Netzwerkschnittstellenkarten auf den Servern. Für diejenigen, die Offload und Multitenancy betreiben möchten, gibt es BlueField-DPUs, die mit ARM-Prozessoren mit GPU-Beschleunigeroption ausgestattet sind.

Wie Firmenmitbegründer und CEO Jensen Huang bereits auf der SC11-Supercomputing-Konferenz zugab, hat Nvidia vielleicht vom Gaming aus in das Supercomputer-Geschäft vorgedrungen, aber seitdem Nvidia seine eigenen Supercomputer bauen musste, ist das Unternehmen mit Volldampf vorangekommen sein Chipdesign und seine Verifizierung sowie das KI-Training für seine zahlreichen neuronalen Netzwerkmodelle und Anwendungsfälle vorantreiben.

Daher die mehreren Generationen der Supercomputer „Saturn V“ und „Selene“, die alle Technologien von Nvidia und seine raffinierte DXG-Systemfertigung zur Schau stellten. Mit der Aufnahme von Mellanox Technologies vor zwei Jahren konnte Nvidia die gesamte Hardware bis auf die CPUs, den Hauptspeicher und den Flash abdecken. Mit dem maßgeschneiderten 72-Kern-Arm-Serverchip „Grace“, der letztes Jahr auf der GTC-Veranstaltung vorgestellt wurde und in der ersten Hälfte des nächsten Jahres ausgeliefert wird, wird Nvidia in der Lage sein, dies zu liefern, und er verfügt über einige interessante Änderungen in der Architektur, die ihm einiges bringen werden gravierende Vorteile. Wenn Nvidia Micron Technology kaufen würde – und wir schlagen nicht vor, dass Nvidia das tun sollte – könnte es die gesamte Hardware im System übernehmen.

Während die neue „Hopper“ GH100-GPU und ihr H100-GPU-Beschleuniger das Herzstück des neuen und umfangreicheren Systems sind, das Nvidia liefern kann, ist die Möglichkeit, das NVSwitch-Speicherclustering zu skalieren, ein ebenso wichtiger Teil, um mit dem explosiven Wachstum bei KI-Modellen Schritt zu halten über die Skins eines einzelnen DGX-Servers hinaus. Und mit dem zukünftigen Supercomputer „Eos“, den Nvidia als Nachfolger von Selene baut und den es als DGX POD und DGX SuperPOD vermarkten wird.

Nichts hindert OEMs und ODMs daran, die HGX-Komponenten zu kaufen, indem sie H100-GPU-Beschleuniger in einem Gehäuse mit NVSwitch-Speicherverbindungen innerhalb des Gehäuses und jetzt die freistehenden NVSwitch-Leaf/Spine-Switches kombinieren, um diese GPU-Speicherstruktur auf 32 Knoten zu erweitern und so ihre eigenen zu erstellen POD- und SuperPOD-Äquivalente. Die Frage ist: Wird einer der oben genannten OEMs – oder ODMs, die im Auftrag von Hyperscalern und Cloud-Buildern arbeiten – dies tun? Oder wird Nvidia den Großteil der Deals für solche Maschinen aufkündigen? Wir gehen davon aus, dass die Wahrscheinlichkeit größer ist, dass OEMs nicht begeistert davon sein werden, mit Nvidia auf der kommerzialisierten Version der Eos-Maschine zu konkurrieren, aber die Hyperscaler und Cloud-Builder, die immer größere Modelle bauen müssen, werden großes Interesse haben In der Tat. Und sie kaufen Teile von Nvidia und lassen diese über ihre ODMs in die Infrastruktur ihres Rechenzentrums integrieren.

Niemand baut großes Eisen, nur weil es beeindruckend ist. Das ist also kein Trick, genauso wenig wie der Bau großer NUMA-Maschinen mit gemeinsam genutztem Speicher aus Single-Core-Prozessoren in den späten 1990er und frühen 2000er Jahren für große relationale Datenbanken oder deren Verknüpfung zu Pods mit vier, acht, sechzehn oder mehr gemeinsam genutzten Daten galt Speichermaschinen, die den Speicher wirklich mit Verbundverbindungen teilen, um Supercomputer zu bauen, war ein wissenschaftliches Projekt. Wenn Nvidia kein verteiltes Speichernetzwerk über Knoten hinweg erstellen müsste, würde es sich nicht darum kümmern. Genauso wenig wie die meisten CPU-Hersteller und Systemhersteller sich nicht die Mühe machen, CPU-basierte Server zu entwickeln, die mehr als zwei und manchmal vier oder acht CPUs in einem gemeinsam genutzten Speichersystem haben. Sie führen die NUMA-Skalierung nur dann durch, wenn es notwendig ist.

Und Nvidia muss. Schauen Sie sich dieses Diagramm an, das Paresh Kharya, Senior Director of Accelerated Computing bei Nvidia, während der Vorbesprechungen für GTC 2022 gezeigt hat:

Der Rechenaufwand in Petaflops zum Trainieren der wiederkehrenden neuronalen Netzwerkmodelle, die in den ersten sieben Jahren der modernen KI-Revolution vorherrschten, ist in der Grafik links dargestellt. In diesem Diagramm wird dies zwar nicht dargestellt, aber die Anzahl der Parameter, mit denen die Modelle jonglieren, hat zugenommen, weshalb mehr Berechnungen erforderlich sind.

Etwa im Jahr 2017 stellte das Google Brain-Team fest, dass es Teile der Eingabedaten nicht der Reihe nach verarbeiten musste, sondern das Modell so anpassen konnte, dass Teile dieser Eingabedaten in beliebiger Reihenfolge verarbeitet wurden – eine Art Out-of-Order-Ausführung, die wir haben seit Jahren in Prozessoren und auch für den Paketversand über Ethernet-Netzwerke zu sehen ist. Durch das Zerlegen und Parallelisieren der Eingabedaten kann das Transformatormodell viel schneller trainiert werden als ein RNN, und dann begannen die Forscher, noch mehr Parameter in die Modelle zu stopfen und fügten der Mischung auch die Magie des selbstregulierten Trainings hinzu. Und so explodieren die Speicherkapazität von Modellen und der Rechenbedarf für diese Modelle. Darüber hinaus beziehen sich 70 Prozent der in den letzten zwei Jahren veröffentlichten Forschungsarbeiten auf Transformatormodelle. Das ist also die neue Zukunft der KI – bis etwas Besseres kommt.

In der Grafik oben rechts zeigt Nvidia das Wachstum der GPU-Skalierung im Vergleich zu dem, was die Transformer-Modelle wirklich brauchten, um in angemessener Zeit trainieren zu können.

Für uns ist klar, dass sich die Geschichte wiederholt, weil die DGX-Maschinen, die auf V100- und A100-GPU-Beschleunigern basieren und den NVSwitch der ersten Generation verwenden, den Speicher auf GPU-Sockeln innerhalb des Knotens in einem gemeinsamen, verteilten Adressraum zusammengeführt haben und nun mit dem Mit der H100-Generation und einer neuen Leaf/Spine-Topologie erstellt NVSwitch einen föderierten GPU-Speicherraum, der über 32 Knoten skaliert. Die Verdoppelung der Rohleistung der GPU beim Übergang vom „Ampere“ A100 zum „Hopper“ H100 war wichtig, aber ebenso wichtig ist der neue Tensor Core, der auf die Beschleunigung von Transformer-Modellen abzielt und der auch über FP8 8-Bit-Präzision verfügt, um die zu steigern Leistung des H100 um den Faktor 6 bei solchen Modellen. Aber selbst mit dieser Steigerung kann ein Single-Node-Shared-Memory-System nicht mithalten, und wie wir vor vier Jahren vermutet hatten, dass Nvidia dies tun müsste, muss NVSwitch selbst von einem schnellen, dedizierten In-Node-Speicherbus in einen vollwertigen Speicherbus umgewandelt werden. Durchgebranntes Speicher-Cluster-Gewebe.

Als NVSwitch vor vier Jahren zum ersten Mal angekündigt wurde, wurde es von Nvidia Research zurückgezogen und schnell (und weit früher als geplant) auf den Markt gebracht, da Nvidia KI-Trainingsmodelle schneller skalieren musste als jede einzelne GPU. Und als wir damals vorschlugen, dass NVSwitch verwendet werden könnte, um mehrere Knoten miteinander zu verbinden, sagte Nvidia, dass der beste Weg, DGX-Knoten miteinander zu verbinden, darin bestehe, die Maschinen mithilfe vieler gekoppelter InfiniBand-Schnittstellen zu gruppieren, um eine fette und schnelle Pipeline zu erstellen. Aber ein Switch ist ein Switch, und einer, der GPU-Speicheratome spricht, ist einzigartig und nützlich, und wir sagten damals, dass wir davon ausgingen, dass ein OEM oder ODM damit experimentieren würde, wie man Knoten mithilfe einer NVSwitch-Fabric miteinander verbinden kann. Nun, das ist nicht passiert, und das liegt wahrscheinlich daran, dass NVSwitch nur zusammen mit den HGX-Systemplatinen als komplette Einheit verkauft wurde.

Der erste NVSwitch, der auf der DGX-2-Plattform auf Basis der V100-GPU-Beschleuniger verfügbar war, verfügte über 18 NVLink 2.0-Ports mit jeweils acht Lanes in jede Richtung und einer Geschwindigkeit von 25,8 Gbit/s, was insgesamt 25 GB/s ergab Bandbreite pro Port. Es gab zwei Blöcke mit jeweils acht NVLink-Ports, die durch eine nicht blockierende Crossbar verbunden waren, sowie zwei Ersatzports, die nie erklärt wurden. (Wir gingen davon aus, dass es sich um Uplinks zu Cluster-Switches handeln würde.) Dieses System verfügte über ein Dutzend der NVSwitch-ASICs, sechs pro HGX-Motherboard, und die Hälfte der Links wurde verwendet, um die Switch-ASICs mit den acht GPUs auf dem Board zu verbinden, und die andere Hälfte wurden zur Verbindung mit dem anderen Satz von sechs ASICs auf der zweiten HGX-Platine verwendet. Zwischen den beiden HGX-Boards gab es eine Halbierungsbandbreite von 2,4 TB/s, und jede der GPUs auf einem einzelnen Board konnte mit jeder anderen GPU auf diesem Board mit einer Bandbreite von 300 GB/s mit einem Hop über den NVSwitch kommunizieren. Es dauerte drei Sprünge, um zu den GPUs auf dem anderen HGX-Board zu gelangen.

Mit dem DGX A100-System und seinen HGX A100-Systemplatinen musste Nvidia die Bandbreite der GA100-GPUs verdoppeln und halbierte daher die Größe der NVSwitch-Struktur auf nur acht GPUs und erhöhte die GPU-zu-GPU-Verbindungen bis 600 GB/Sek. Der gesamte Switch-Durchsatz betrug 7,2 Tbit/s, wenn man sich das so vorstellen will, wie es Switch-ASIC-Hersteller tun, und das war die gesamte Switching-Kapazität des ursprünglichen NVSwitch. Nvidia nennt den NVSwitch, der in den DGX A100-Systemen und den HGX A100-Boards verwendet wird, seine zweite Generation, und die große Änderung bestand darin, auf die 50-Gbit/s-Signalisierung auf dem SerDes umzusteigen, was bedeutet, dass zwölf NVLinks auf jedem A100 installiert und 600 GB betrieben werden könnten Bandbreite pro Sekunde mit der gleichen Anzahl an NVLink-Lanes wie der V100, der über sechs NVLink-Ports verfügte und die oben genannten 300 GB/s erreichte.

Mit NVSwitch 3 – das ist unser Name dafür, weil Nvidia es als NVSwitch der dritten Generation bezeichnet, was zu lang ist – wird die Gesamtbandbreite des Geräts um 66,7 Prozent auf 12,8 Tbit/s erhöht und die Geschwindigkeiten des NVLink 4.0-Ports liefern 900 GB/Sek. Bandbreite in den und aus dem H100-Beschleuniger mit insgesamt 18 NVLinks im Vergleich zu den 12 Links, und dies kann durch die Verwendung von nur zwei Differentialpaaren in jede Richtung statt der vier Paare erreicht werden, die beim vorherigen A100 verwendet wurden . Die zugrunde liegende Signalisierung läuft für NVLink 4.0 mit 106,25 Gbit/s. Der interne NVSwitch 3 ASIC verfügt über 64 NVLink 4.0-Ports und der externe NVLink Switch verfügt über 128 NVLink-Ports. Wir gehen davon aus, dass sich zwei dieser NVSwitch 3 ASICs im Gehäuse befinden. Die Bandbreite von 25,6 TB/s – doppelt so hoch wie die NVSwitch 3-Spezifikationen – untermauert dies:

Der NVLink Switch vereint zwei dieser Pakete in einem einzigen Gehäuse:

Dieses Gehäuse weist nur 32 physische Ports auf, soll aber über 128 NVLink-Ports verfügen. Vielleicht liegt das an der Link-Aggregation und dann an der Kabelaufteilung? Es ist unklar.

Eine letzte Sache zu NVSwitch 3: Nvidia hat die netzwerkinternen Computing-Algorithmen und -Schaltkreise von SHARP von seinen InfiniBand-Switches auf den NVSwitch 3 ASIC portiert, was ihm die Möglichkeit gibt, bestimmte Sammel- und Reduzierungsvorgänge im Netzwerk durchzuführen. Das ist eine große Sache, wie Sie an der aktuellen Rechenkapazität im Netzwerk erkennen können:

Hier sehen Sie, wie sich die Netzwerke zusammenfügen, um das DGX H100-System, den DGX SuperPOD und den Eos AI – und wir denken HPC – Supercomputer aufzubauen.

Das DGX H100-System benötigt nur vier der NVSwitch 3 ASICs, um die acht H100 GPU-Beschleuniger in der Box miteinander zu koppeln und dennoch genügend NVLinks zusammenzuhalten, um eine zweite Ebene von NVSwitch-Boxen zu erreichen, um bis zu 32 davon zu verbinden DGX H100-Systeme werden zu einem gemeinsamen Systemcluster zusammengefasst. (Im Vergleich dazu benötigte der DGX-2 zwölf der NVSwitch 1-ASICs, um sechzehn V100-GPU-Beschleuniger im Gehäuse zu kreuzen, und der DGX A100 benötigte sechs NVSwitch 2-ASICs, um acht A100-GPU-Beschleuniger kreuzweise zu koppeln.)

Aber schauen Sie sich das an. In diesem 32-Knoten-DGX-H100-SuperPOD-System – und sie teilen sich den HBM3-Speicher auf allen GPUs, es handelt sich also wirklich um ein System – gibt es 256 H100-GPU-Beschleuniger, aber wenn man alle Switch-ASICs zusammenzählt, sind es 164 ihnen. Das Netzwerk besteht zu 40 Prozent aus der Schwerzerspanung. Mit so viel mehr Ports und so viel mehr Bandbreite können jetzt die internen NVSwitch 3-Chips im DGX H100-System als Leaf-Switches in einem Links-/Spine-Netzwerk fungieren, und wenn 18 dieser externen NVLink-Switches in ein einziges Rack passen in der Mitte der Maschine hinzugefügt werden, sprengen sie einfach die Leistung des 100-Gbit/s-HDR-InfiniBand-Leaf/Spine-Netzwerks, das im DGX A100 SuperPOD verwendet wurde. Schau mal:

Doch dieser DGX SuperPOD ist für Nvidia weder groß noch schnell genug. Und deshalb baut das Unternehmen den Eos-Supercomputer, der in der Abbildung unten gezeigt wird und „in den nächsten Monaten“ gebaut werden soll, so Jensen Huang, Mitbegründer und CEO von Nvidia.

Mit Eos wird Nvidia 18 der DGX H100 SuperPODs zu einer monströsen Maschine zusammenfügen – eine, die je nach Präzisionsgrad auf Platz eins oder zwei der Welt stehen würde. Im Moment würde er den bestehenden „Summit“-Supercomputer im Oak Ridge National Laboratory in den Vereinigten Staaten bei FP64-Mathematik schlagen (gemessen am Linpack-Benchmark) und den „Fugaku“-Supercomputer im RIKEN Lab in Japan bei reduzierter Präzision übertreffen Mathematik.

Dieses Biest verfügt über 576 DGX H100-Systeme mit insgesamt 4.608 H100-GPU-Beschleunigern. Nach unserer Zählung verfügt das System intern über 2.304 NVSwitch 3 ASICs auf diesen Maschinen und weitere 360 ​​NVLink Switch-Gehäuse mit 720 der NVSwitch 3 ASICs. Es gibt 500 der Quantum-2 NDR InfiniBand-Switches, also fügen Sie dort weitere 500 ASICs hinzu. Wenn man alles zusammenzählt, gibt es im Eos-System 3.524 Switch-ASICs, also 43,3 Prozent der insgesamt 8.132 Geräte. (Wir können die CPUs in den DGX-Boxen kaum zählen, da sie rechnerisch gesehen hauptsächlich für den Haushalt zuständig sind.)

Dies ist auch nicht das Verhältnis von Rechenleistung und Netzwerk, das wir in HPC-Clustern oder in Hyperscale- oder Cloud-Systemen sehen. Nvidia bringt sehr ernsthafte Netzwerke sowohl von Nvidia als auch von der ehemaligen Mellanox Technology mit, um die schwierigsten Skalierungsprobleme unserer Zeit zu lösen.

Wir fragen uns, wie viele HPC-Shops – insbesondere diejenigen, die eine zunehmende KI-Arbeitsbelastung haben – sich ansehen werden, was Nvidia entwickelt hat, und anfangen, ein wenig neidisch auf die KI-Menge zu werden. Und wir sind sicher, dass nicht wenige HPC-Zentren – angefangen beim CSCS in der Schweiz – sich den Arm-CPU-Komplex „Grace“ und die Hopper-GPU sowie all diese NVSwitch-Speicherverbindungen ansehen und sich fragen werden, was sie damit machen könnten sehr großer Shared-Memory-Cluster. Wie die, von denen viele vor so vielen Jahren immer geträumt hatten. Um dies zu skalieren, muss Nvidia lediglich eine weitere NVSwitch-Netzwerkschicht hinzufügen … oder einen umfangreicheren Switch-ASIC bauen.

Auch wenn Nvidia kein Hauptauftragnehmer sein möchte, könnten seine großen finanziellen Mittel und sein technisches Können dazu führen, dass es dazu gedrängt wird. HPC-Zentren erhalten einfach nicht die Angebote, die sie gewohnt sind. Sie können entweder mehr bezahlen oder den Vorsprung an die Hyperscaler und Cloud-Builder verlieren, die sich absolut so viele leistungsstarke Maschinen leisten können, wie sie wollen.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren

AKTIE