Oracle kondigt eerste zettascale supercomputer aan tijdens CloudWorld. De maximale configuratie maakt gebruik van niet minder dan 131.072 Nvidia Blackwell GPU’s.
Dat de cloud in principe goed schaalt, weten we al heel lang. Oracle geeft deze eigenschap vandaag echter een nieuwe dimensie in Oracle Cloud Infrastructure (OCI). Vanaf vandaag kunnen klanten namelijk bestellingen plaatsen voor OCI Supercluster, dat een enorm grote maximale capaciteit krijgt. De ruim 130.000 GPU’s die er maximaal in kunnen worden gestopt leveren piekprestaties op van 2,4 zettaflops.
Het grote aantal GPU’s dat beschikbaar is in OCI Supercluster plaatsen we graag even in perspectief. Het zijn er drie keer meer dan in de Frontier-supercomputer, die op dit moment op de eerste plaats staat in de Top 500-lijst van supercomputers. Daar zitten ‘slechts’ een kleine 38.000 AMD Instinct GPU’s in. Dat is dan ook een exascale supercomputer, geen zettascale. De maximale prestaties komen uit op een ruime 1200 exaflops. Daar gaat Oracle met dit nieuwe aanbod dus heel dik overheen. Over de prestaties per watt doet Oracle overigens geen uitspraken. Dat vinden we ook altijd wel een interessant cijfer.
Verschillende varianten van OCI Supercluster
OCI Supercluster bestaat uit OCI Compute Bare Metal, de verschillende onderdelen praten met elkaar via RoCEv2 of Nvidia Quantum-2 Infiniband en er is uiteraard ook voorzien in storage die geschikt is voor High Performance Computing (HPC).
Klanten kunnen OCI Supercluster in meerdere varianten bestellen. Het is beschikbaar met Nvidia H100 of H200 Tensor Core GPU’s, maar dus ook met de nieuwste Blackwell GPU’s. Gaat een klant voor H100’s, dan schaalt OCI Supercluster tot 16.384 GPU’s en 65 exaflops. Met H200’s ligt de bovengrens op 65.536 GPU’s en 260 exaflops. De nieuwste hardware van Nvidia komt in OCI Superclusters beschikbaar via de Nvidia GB200 NVL72 ‘superchip’, een combinatie van Grace-CPU en Blackwell-GPU. Dit zijn vloeistofgekoelde bare-metal instances, die zoals de naam al aangeeft via NVLink en NVLink Switch met elkaar communiceren. Binnen een enkel NVLink-domein kunnen er op deze manier tot 72 Blackwell-GPU’s met elkaar communiceren. De gezamenlijke bandbreedte bedraagt dan een kleine 130 TB/s.
De Nvidia Blackwell GPU’s zijn nu nog niet beschikbaar, Nvidia heeft de levering ervan recent naar verluidt nog uitgesteld vanwege een ontwerpfout (al bestreed het bedrijf dit recent nog). Ze worden in de eerste helft van 2025 verwacht voor OCI Supercluster. Het is verder ook niet duidelijk of er vanaf het begin van deze levering ook meteen aanvragen gedaan kunnen worden voor het maximale aantal van 131.072 GPU’s. Het zou ons niets verbazen dat een OCI Supercluster met dit aantal GPU’s vooralsnog vooral op de specsheet staat en dat Oracle dit nog niet gaat leveren. We hebben dit nog nagevraagd bij Oracle. Zodra we hier meer informatie over hebben, zullen we dit artikel updaten. Verder is het ook niet duidelijk waar Oracle deze nieuwe enorme OCI Superclusters bouwt of gaat bouwen.