AI zet momenteel alles op zijn kop. Het ontwerp van datacenters vormt daarop geen uitzondering. Het stelt bedrijven als Schneider Electric voor grote uitdagingen. We spraken met Steve Carlini, Chief Advocate for AI in Data Centers bij Schneider Electric, om te horen waar het heengaat en hoe we er kunnen komen.
De datacenterindustrie racet naar 1 megawatt per rack. Tijdens de Global Innovation Summit van Schneider Electric hoorden we zelfs van Nvidia over plannen voor 2 en zelfs 4 megawatt per rack die al op de roadmap staan. Het mag duidelijk zijn dat datacenters in slechts een paar jaar tijd drastisch zullen veranderen.
De gevolgen van deze gigantische sprongen voor stroomvoorziening, koeling en het ontwerp van faciliteiten zijn aanzienlijk. “De situatie is de afgelopen jaren geëscaleerd”, aldus Carlini, waarbij hij ‘escaleren’ vooral bedoelt als iets wat heel snel verandert en ontwikkelt. Het heeft dus niet zozeer een negatieve connotatie. Wel houdt het in dat alle spelers die actief zijn in deze markt hard aan de slag moeten om mee te kunnen.
Einde van de dominantie van Intel
De belangrijkste reden voor de grote veranderingen in het ontwerp van datacenters is gemakkelijk te vinden. Dat is natuurlijk de snelle uitbouw van AI-infrastructuur. Daar komen we straks op terug. Carlini noemt echter ook nog een andere reden waarom we al zo lang vastzitten aan hetzelfde ontwerp voor datacenters.
De traditionele datacenterarchitectuur werd gedomineerd door x86-servers met één of twee sockets, voornamelijk van Intel. Die x86-servers verbruikten zelden meer dan 5-10 kilowatt per rack. Tot de opkomst van AI-workloads in de afgelopen jaren vonden de industrie als geheel en Intel het prima om dat zo te houden, volgens Carlini. Dit betekende ook dat “de industrie en Intel iedereen probeerde weg te houden van vloeistofkoeling”, stelt hij. Dat was voor die racks gewoonweg niet nodig. Interessant genoeg suggereert dit dat de technologische mogelijkheden om de dichtheid in racks te verhogen wel aanwezig waren, maar dat de marktdynamiek de invoering ervan in de weg stond.
Met AI-workloads die 40-50 kilowatt per rack verbruiken, en soms meer dan 100 kilowatt per rack, werd die positie echter onhoudbaar. Daar was wel een fundamentele verschuiving voor nodig. Moderne AI-servers werken met veel GPU’s in parallel, naast CPU’s en DPU’s (Data Processing Units) en enorme geheugenconfiguraties. De Thermal Design Power (TDP) van deze implementaties is ruimschoots hoger dan dat van traditionele processors. Hierdoor ontstond er een behoefte aan nieuwe ontwerpen op het gebied van koeling.
Sprong naar 800V DC
Koeling is een van de componenten die grote veranderingen ondergaat als gevolg van de opkomst van AI. Stroomvoorziening is een andere. De AI-infrastructuur ontwikkelt zich nu zo snel dat dit fundamentele gevolgen heeft voor de roadmap van bedrijven als Schneider Electric. De samenwerking tussen Schneider en Nvidia laat dat zien. Het bedrijf was oorspronkelijk van plan om 600V DC-systemen te introduceren. Het realiseerde zich echter dat deze spanning niet voldoende was om te voldoen aan de vereisten van 400 kilowatt per rack voor de nieuwe Nvidia Vera Rubin Ultra GPU’s die eind 2026, begin 2027 op de markt komen.
De oplossing voor dit probleem is even eenvoudig als ingrijpend. Schneider stapte direct over op een 800V DC-architectuur. Dit betekent ook dat het ontwerp voor de distributie van stroom, de aansluitingen op het elektriciteitsnet en servers op de schop moest. Een van de manieren om hiermee om te gaan is door het gebruik van “sidecars”. Dit betekent dat de stroomvoorziening buiten de serverkasten worden ondergebracht. Een beetje zoals een zijspan naast een motorfiets hangt dus. Hiermee volgen servers het voorbeeld van datacenters als geheel. Daar zien we ook steeds vaker modules buiten het eigenlijke gebouw staan.
Als we verder vooruitkijken naar 2028-2029, geeft Carlini aan dat de Feynman-architectuur van Nvidia de dichtheid zal opvoeren tot 1 megawatt per rack, waarbij Schneider al werkt aan oplossingen voor wat er daarna komt.
Vloeistofkoeling wordt de norm
Luchtkoeling bereikt praktische grenzen rond 50 kilowatt per rack. Warmtewisselaars aan de achterkant van racks kunnen tot 72 kilowatt halen. Daarboven wordt vloeistofkoeling essentieel, aldus Carlini. De huidige vloeistofgekoelde datacenters gebruiken echter meestal alleen direct-to-chipkoeling voor processors, waardoor 20-30% van de apparatuur luchtgekoeld blijft.
Richting de toekomst zou daar weleens verandering in kunnen komen. De industrie werkt ook aan manieren om netwerkapparatuur, voedingen en andere componenten onder te dompelen in vloeistofkoelsystemen. Dit zou de zaken echt vereenvoudigen, aldus Carlini: “Het combineren van beide [vloeistofkoeling en luchtkoeling, red.] in één datacenter is erg complex, dus dat [standaardiseren op vloeistofkoeling, red.] zou een interessant idee kunnen zijn.”
In tegenstelling tot de bezorgdheid van het publiek over het waterverbruik, benadrukt Carlini dat gesloten vloeistofkoelsystemen koelmiddel in een afgesloten systeem rondpompen. Deze systemen verbruiken geen water zoals wel het geval is met traditionele verdampingskoeltorens. Sommige faciliteiten gebruiken zelfs zeewater om de gesloten systemen weer te koelen, zoals blijkt uit een Schneider-project in Portugal waarover we eerder dit jaar hebben bericht.
Vloeistofkoeling blijft zich ontwikkelen
Vloeistofkoeling zelf zal zich ook blijven ontwikkelen, horen we van Carlini. Meer specifiek noemt hij microfluïdische koeling. Dat houdt in dat er zeer kleine kanaaltjes in het silicium van een chip zijn geëtst. Koelvloeistof stroomt door die kanalen en koelt de chip. Dit zou een grote impact kunnen hebben op de koelcapaciteit. Het brengt de koeling immers zo dicht mogelijk bij de warmtebron. Dat moet resulteren in een hogere efficiëntie. Niet alleen vanwege het wegvallen van de afstand tussen koeling en silicium, maar ook omdat de koeling nu beter kan worden gericht op de warmste delen van een chip. Microsoft beweert dat het deze nieuwe manier van koelen met succes heeft getest.
Ontwikkelingen zoals microfluïdische koeling kunnen een grote impact hebben op de manier waarop racks en bijbehorende infrastructuur in de toekomst worden gebouwd. Daarnaast zijn er nog andere zaken die invloed kunnen hebben op het koelproces. Zaken die meer te maken hebben met veranderingen in hoe componenten in servers met elkaar communiceren. Wat zal bijvoorbeeld de impact zijn van een volledig fotonisch netwerk op koeling?
De eerste paar fasen van de bouw van end-to-end fotonische verbindingen zijn inmidels gezet. De interessante onderdelen voor de discussie die we hier voeren, staan als volgende op de roadmap voor volledig fotonische netwerken: het gebruik van fotonische verbindingen tussen en binnen silicium op printplaten. Door de elektronische verbindingen volledig te elimineren, moet dit leiden tot een lager energieverbruik en dus ook minder warmte. Als we Carlini vragen wat de impact hiervan zou kunnen zijn, noemt hij een efficiëntieverbetering van 30-50% in testlocaties van Schneider waar men hiermee aan de slag is gegaan. De impact van deze transitie zou dus enorm kunnen zijn, ook op de roadmap van onder andere Nvidia en Schneider Electric.
Vloeistofkoelsystemen als bronnen van data
Als het gaat om vloeistofkoeling, gaat het niet alleen om het soort koelsysteem (direct-to-chip, immersie, microfluïdisch). Deze systemen genereren ook data die kan worden gebruikt voor monitoring/observability-doeleinden. “We kunnen data van vloeistofkoelsystemen integreren in het Nvidia-platform. Dit betekent dat je meldingen kunt krijgen in je Nvidia-omgeving”, zegt Carlini. Dit was geen gemakkelijke integratie voor Schneider, benadrukt Carlini. Ze hebben er een jaar aan gewerkt.
Een jaar om iets te bouwen dat de koelsystemen met het Nvidia-platform verbindt, klinkt als een lange tijd en dus een stevige investering. Het is echter belangrijk om dit te doen. Uiteindelijk draait het bij AI-infrastructuur om het zo veel mogelijk optimaliseren van de infrastructuur. Met andere woorden, organisaties willen elke laatste GPU-cycle uit hun systemen halen en benutten. Als je vanaf één enkel dashboard of één enkele beheerlaag precies weet wat er end-to-end in je infrastructuur gebeurt, wordt dat gemakkelijker. Dat is in ieder geval de theorie.
Locatie van datacenters
Bij elke discussie over datacenters kan één van de grotere olifanten in de kamer niet worden genegeerd: hoe gaan we ze allemaal aansluiten op het elektriciteitsnet? Carlini stelt tijdens zijn presentatie dat, ervan uitgaande dat de discussie over water zal worden opgelost, dit de volgende grote uitdaging is die moet worden opgelost. Die uitdaging bestaat uit twee delen. Het eerste deel is hoe ervoor gezorgd kan worden dat datacenters voldoende stroom krijgen om te kunnen functioneren. Het tweede deel is hoe de rol van het datacenter kan en moet veranderen als onderdeel van het elektriciteitsnet.
Om het eerste deel van de uitdaging op te lossen, hebben datacenterbeheerders verschillende opties. De locatie van datacenters is een voor de hand liggende optie. Carlini laat weten dat Alaska recent erg populair is geworden als locatie voor nieuwe datacenters. Daar zijn ten minste twee redenen voor. Enerzijds is het niet erg dichtbevolkt. Anderzijds is het er koud, waardoor er veel natuurlijke koeling beschikbaar is. Dit heeft uiteraard ook invloed op het stroomverbruik.
Een ander voorbeeld van locatie als belangrijke beslissende factor zagen we eerder dit jaar. We bezochten de nieuwe Start Campus-locatie in Sines, Portugal. Dat datacenter wordt geleidelijk uitgebouwd tot een locatie van 1,2 GW. De redenen voor de keuze van de locatie aan de kust van Portugal? De eerste is dat Portugal veel overtollige hernieuwbare energie heeft die datacenters kunnen gebruiken. De tweede is dat Start Campus de vloeistof in het gesloten systeem van het datacenter wil koelen met zeewater. De derde is dat het naast een voormalige elektriciteitscentrale is gebouwd, zodat het kan profiteren van veel van de infrastructuur die er al is, waaronder de stroomvoorziening.
Datacenters en het elektriciteitsnet
Het tweede deel van het energievraagstuk rond datacenters heeft te maken met hoe ze deel uitmaken van het elektriciteitsnet als geheel. Echt grote datacenters, zoals het nieuwe dat wordt gebouwd in Abilene, Texas, hebben deels hun eigen stroomvoorziening. Deze specifieke locatie maakt naast het ‘normale’ elektriciteitsnet gebruik van gasturbines. Kleine modulaire reactoren (SMR’s) op locatie, die draaien op gerecycled uranium uit traditionele nucleaire faciliteiten, zijn ook een interessante optie. SMR’s bieden een hoge inertie in vergelijking met wind- en zonne-energie, wat goed is voor de stabiliteit van het elektriciteitsnet.
Datacenters kunnen verder ook een interessante rol spelen als het gaat om de stabiliteit van het elektriciteitsnet. Meer specifiek kunnen ze helpen het elektriciteitsnet te stabiliseren en te ondersteunen. Carlini noemt in dit verband het Data Center Flexible Load Initiative (DCFlex). Het idee hierachter is dat datacenters niet alleen passieve gebruikers van het elektriciteitsnet moeten zijn, maar ook iets teruggeven. Dat betekent dat grote datacenters een elektriciteitsbron kunnen worden en diensten kunnen leveren om het elektriciteitsnet beter in balans te houden. Dit initiatief is eind 2024 van start gegaan en moet eind 2027 zijn afgerond. We hebben ook gehoord van kleinschaligere initiatieven dan DCFlex op dit gebied. Deze zullen waarschijnlijk eerder operationeel zijn.
De bovenstaande initiatieven lijken een stap in de goede richting te zijn. Er zijn echter veel bewegende delen waarmee rekening moet worden gehouden. Er is een meer dynamische aanpak nodig voor de verkoop van ruimte in datacenters, die meestal gebaseerd is op het aantal watt dat een klant wil. Ongeacht de werkelijke belasting reserveert het datacenter dat voor de klant. Als datacenters dynamischer moeten worden, moeten de contracten dat ook worden. Nieuwe modellen moeten exploitanten in staat stellen specifieke dienstverlening te kunnen leveren aan, op en via het elektriciteitsnet (onder andere op basis van contracten met nutsbedrijven) en tegelijkertijd de stroombehoeften van klanten garanderen. Hoewel dit niet onmogelijk is, zal het wel wat werk vergen.
Het datacenter van de toekomst
Het datacenter van de toekomst zal er een worden vol high-density computing, met vloeistofkoeling en aangedreven door duurzame energiebronnen. Daarnaast krijgt het datacenter een belangrijkere rol in het elektriciteitsnet. Naarmate de technologie zich verder ontwikkelt, zullen datacenters efficiënter, flexibeler en milieuvriendelijker worden. Dat klinkt voor veel mensen vandaag de dag misschien als een contradictio in terminis, maar het is de enige manier om de compute-dichtheid te bereiken die we nodig hebben om vooruit te komen.
Het bovenstaande artikel is gebaseerd op een presentatie en een gesprek dat we hadden met Steve Carlini tijdens de Schneider Global Innovation Summit. Het volledige gesprek is hieronder te bekijken:
Openingsbeeld afkomstig van Gemini. Vrijwel zeker niet eens bij benadering hoe een datacenter er in de toekomst uit gaat zien.