Voor een moderne uitvinding is de opzet van datacenters tegenwoordig behoorlijk traditioneel en standvastig. AI ontwricht de oude manier van werken, waardoor operators niet meer in gescheiden systemen kunnen denken. Een verschuiving naar ontwerp op systeemniveau is nodig, stelt Peter de Bock, VP Data Center Energy & Cooling bij Eaton. Van wie kan de IT-industrie leren dat te doen?
Het datacenter zoals het vandaag bestaat, zo stelt De Bock, is een overblijfsel van zijn oorsprong in de telecomwereld. Er is een vastgoedmodel opgebouwd rond de gehuurde ruimte, gecentraliseerde airconditioning en een infrastructuur die wordt gebruikt voor racks die 10 tot 40 kilowatt verbruiken. Dat model werkt nog steeds naar behoren voor standaard IT. Voor AI is dat niet het geval.
De AI-explosie
Tegenwoordig vindt de sprong naar honderden kilowatt per locatie snel plaats. Toegegeven, we hebben het alleen over de meest extreme opstellingen die we gezamenlijk “AI-infrastructuur” noemen. Niettemin bepalen die tak van sport het tempo voor toekomstige implementaties die heel goed kunnen opschalen naar voorheen ongekende stroombehoeften. De Vera Rubin-systemen van Nvidia zullen tot 600 kW per rack vragen. De Bock merkt op dat dit soort vermogen de koelingsbehoefte per volume-eenheid van datacenters op hetzelfde niveau brengt als die van verbrandingsmotoren. Het verschil is dat verbrandingsmotoren dat vermogen slechts met tussenpozen leveren (lees: wanneer je het gaspedaal helemaal indrukt). In een ideale implementatie draait AI-infrastructuur constant (lees: de motor gaat plankgas), waardoor elke ontoereikende koeloplossing in korte tijd verzadigd raakt.
De oplossing is niet alleen het upgraden van de koeling. De Bock voorziet een end-to-end vernieuwing van de infrastructuur die fundamentele veranderingen vereist van het elektriciteitsnet tot aan de siliciumchips zelf. De koeling moet namelijk gebeuren met vloeibaar water in plaats van lucht, met een directe koperen warmtewisselaar naast de AI-processoren om de efficiëntie te maximaliseren, volledig geïntegreerd in de leidingen van moderne datacenters en synchroon werkend met de stroomvoorziening, opnieuw nauw verbonden met zowel het lokale elektriciteitsnet als de stroomverdeel-units.
Het probleem van de vermogensdichtheid
We horen vaak dat de wet van Moore niet meer geldt. Chips worden simpelweg niet meer zo snel kleiner als vroeger, hun voetafdruk neemt toe en hun stroombehoefte stijgt boven historische drempels voor traditionele IT-ontwerpen. De Bock voegt context toe aan deze ontwikkeling met een andere, misschien minder bekende observatie die deze verschuiving benadrukt. Dennard-schaalbaarheid, een soort wet die stelt dat steeds kleiner wordende chips ongeveer evenveel stroom nodig hebben als voorheen, heeft zijn fysieke grenzen bereikt, dus compenseren chipfabrikanten dit met grotere siliciumvoetafdrukken en door processors dicht op elkaar te clusteren. Miljoenen cores moeten constant communiceren, en de gevolgen qua warmteopwekking van een dergelijke aanpak zijn onvermijdelijk.
Datacenters kunnen niet langer worden gebouwd als generieke gebouwen met losse airconditioners die als “bolt-on” gelden, zegt De Bock. Ze moeten “holistisch” worden ontworpen als industriële AI-fabrieken, stelt hij. Daarom werkt Eaton nauw samen met Nvidia en andere IT-leveranciers om te optimaliseren voor toekomstige groei en voor de verhoogde eisen die zelfs de allerbeste chips van vandaag stellen. De bredere verandering gaat volgens hem minder over de technologie zelf en meer over de discipline die nodig is om ervoor te ontwerpen. Dit verandert de focus van telecomtraditie naar denken op systeemniveau dat dichter bij de lucht- en ruimtevaart of de automobielindustrie ligt. In dergelijke sectoren is nauwe samenwerking veel gebruikelijker om vliegtuigen en raketten van de grond te krijgen en auto’s decennialang veilig en betrouwbaar te laten rijden. Dat wil niet zeggen dat dit probleemloos gaat, maar de foutmarges zijn klein en de componenten kunnen niet los van elkaar gezien worden.
De urgentie om zo’n omslag te maken in onze gedachtenwereld is er. De Bock wijst op een wereldwijd stroomverbruik van AI-datacenters van meer dan 150 gigawatt, ongeveer 15 keer het totale elektriciteitsnet van de stad New York. Datzelfde stedelijke gebied werd onlangs in prominent onderzoek vergeleken met de huidige CO2-uitstoot van AI-infrastructuur, hoewel bedrijven er wel aan werken om hun ecologische voetafdruk op die van een wat kleinere stad te laten lijken. Hoe dan ook, het voldoen aan de vraag zelf binnen een redelijk tijdsbestek maakt de huidige, component-voor-component benadering van de bouw van datacenters onhoudbaar. Eaton is een van de bedrijven die geprefabriceerde, vooraf geteste modulaire compute-pods onderzoekt. Deze worden in de fabriek gebouwd in plaats van ter plaatse geassembleerd, en ze kunnen dienen als een antwoord op deze beperking. De verschuiving naar ontwerpen met vloeistofkoeling die tot megawatts per rack aankunnen, hebben we al enige tijd kunnen zien aankomen.
Wat is er mis met luchtkoeling?
De thermodynamica van luchtkoeling, zegt De Bock, is nooit een goede match geweest voor dit soort hardware. PUE (Power Usage Effectiveness), de standaardmaatstaf die wordt gebruikt om efficiëntie te meten, verhult hoe slecht de match is. Hierdoor wordt de energie van serverventilatoren aan de IT-kant van de balans geplaatst in plaats van aan de koelingskant, wat de PUE kunstmatig lager maakt, waardoor de faciliteit efficiënter lijkt dan ze in werkelijkheid is. Een faciliteit die een PUE van 1,1 claimt, zo stelt De Bock, zit in werkelijkheid wellicht dichter bij 1,4 als men rekening houdt met deze boekhoudkundige eigenaardigheid. Traditionele luchtgekoelde faciliteiten besteden ondertussen ongeveer 40 procent van hun totale energie alleen al aan koeling.
De temperatuurverschillen verergeren het probleem. Siliciumtransistors laten het geleidelijk afweten qua prestaties vanaf ongeveer 85 °C tot 95 °C, maar standaard circuits in datacenters pompen gekoelde vloeistof door bij 20 °C tot 30 °C. Het koelen van vloeistof tot bijna kamertemperatuur om chips te koelen die tot 85 °C kunnen verdragen, is om fysieke redenen dus onlogisch, blijkt andermaal uit ons gesprek met De Bock.
Een van de benaderingen die wordt onderzocht, is warmwaterkoeling, waarbij gebruik wordt gemaakt van circuits met hogere temperaturen, bijvoorbeeld rond 45 °C aan de ingang en 60 °C aan de uitgang. De wiskunde hier leidt ons naar grote winst met een dergelijke aanpak. Warmteafvoer voor droge koelers volgt een kubieke relatie, wijst De Bock erop, en dus vermindert het verdubbelen van het temperatuurverschil tussen koelvloeistof en omgevingslucht het benodigde ventilatorvermogen met een factor acht. Door warmte af te voeren bij 60 °C zou de noodzaak voor verdampingskoeltorens volledig kunnen worden geëlimineerd, wat water bespaart. Bij die temperatuur wordt de restwarmte ook bruikbaar voor gemeentelijke stadsverwarmingsnetwerken. Dat is in overeenstemming met bestaande Europese richtlijnen, hopelijk een voorzet voor het breder benutten van al die restwarmte die tegenwoordig naar de atmosfeer ontsnapt om nooit meer benut te worden.
Het juiste meten
Niet alleen de instrumenten moeten echter veranderen, want we hebben ook andere maatstaven nodig. Het vervangen van PUE als de benchmark voor de sector is voor De Bock net zo belangrijk als het upgraden van de fysieke infrastructuur. Het door hem voorgestelde alternatief is tokens per watt. In plaats van te meten hoe efficiënt een faciliteit stroom levert aan IT-apparatuur, meet tokens per watt de daadwerkelijke compute-output, of de uitgevoerde AI-taken, ten opzichte van het stroomgebruik. Deze maatstaf is op dit moment moeilijk te standaardiseren, maar elke praktische meting ervan zou IT-operaties in staat stellen om te evolueren naar het soort systemische verbeteringen dat nodig is voor de toekomst van AI-rekenkracht.
Het duidelijke probleem hier is dat verschillende engineeringteams tegenwoordig onvermijdelijk in silo’s werken. Voor grootschalige AI-infrastructuur is een geïntegreerde oplossing gebruikelijk. Dit kan op basis van reference designs en expertise van hyperscalers voor het opschalen van de infrastructuur. Voor een dagelijks datacenter is een dergelijke soepele ervaring op dit moment nog onwaarschijnlijk, vooral wanneer de eindklant niet vastligt voor een bepaalde faciliteit. Het uitwerken van de logistiek en het vinden van een gemeenschappelijke basis tussen degenen die de fysieke datacenters bouwen en degenen die de IT-kant uitwerken, zal een uitdaging zijn.
Conclusie: de vele voordelen
De efficiëntiewinst van een goed ontworpen, vloeistofgekoelde AI-opstelling zou het overwinnen van dergelijke pijnpunten de moeite waard moeten maken. De Bock schat dat er 20 tot 30 procent meer output haalbaar is met hetzelfde stroomverbruik. Aangezien de beschikbaarheid van stroom de belangrijkste bottleneck is bij de implementatie van AI, weegt dat verschil enorm zwaar. Om nog maar te zwijgen van het feit dat de huidige maatschappelijke normen rond de uitbreiding van datacenters zich juist richten op die totale, ronduit reusachtige energievraag. Een lastig aspect hierbij is dat de sector het risico loopt haar eigen efficiëntiewinst en gestage prestaties te verbergen door juist weer op te schalen, met hetzelfde astronomische stroomgebruik tot gevolg. We weten niet precies hoe dat opgelost kan worden, maar De Bock biedt ons in ieder geval een manier van denken die de perceptie van datacenters wel eens zou kunnen veranderen, mits dit duidelijk aan de buitenwereld wordt gecommuniceerd.
Andere uitdagingen zijn minder filosofisch en puur gebaseerd op resultaten. Efficiëntie op papier zonder betrouwbaarheid heeft weinig nut in productieomgevingen. Dit verklaart waarom sommigen zelfs nu nog de voorkeur geven aan conservatieve datacenterontwerpen, ook al zouden de voordelen van een nieuwe aanpak duidelijk zijn. De Bock is categorisch over wat vloeistofkoeling moet overnemen van de lucht- en ruimtevaarttechniek. Er moet gestructureerd storingsbeheer zijn, en wel in drie dimensies. De specifieke ernst is er een van: back-ups moeten inherent zijn aan het systeemontwerp. Voorkomen, met andere woorden de storingspercentages, moeten strikt worden gekwantificeerd. Detecteerbaarheid is volgens De Bock het laatste cruciale punt. Predictive monitoring moet potentiële problemen weken of maanden van tevoren signaleren, zodat gepland onderhoud mogelijk is in plaats van noodmaatregelen.
De Bock ziet vloeistofkoeling niet als een niche die voorbehouden is aan hyperscalers en HPC-clusters. Zodra de economische en ruimte-efficiëntievoordelen duidelijk zijn (en hij stelt dat dit al het geval is) wordt de invoering in standaard bedrijfsomgevingen een kwestie van wanneer, niet of. De tijd van die ‘wanneer’ is nog steeds cruciaal, gezien de snelle ontwikkeling van AI-hardware, maar de noodzaak om de huidige filosofie rondom datacenters te veranderen wordt met de dag urgenter.