Te midden van de AI-opmars zou je bijna vergeten dat de wet van Moore de strijd tegen de natuurkunde heeft verloren. Gelukkig verschijnen er bijna net zo vaak innovatieve chipontwerpen als nieuwe AI-modellen die erop moeten draaien. Met Maia 200 wil Microsoft inferencing op Azure zo kostenefficiënt mogelijk maken. In gesprek met Andrew Wall, General Manager van Azure Maia bij Microsoft, leren we echter hoe veelzijdig en complex de toekomst van AI-rekenkracht wordt. Waarom?
Toen OpenAI begin 2023 GPT-4 trainde, had het ongeveer 25.000 Nvidia A100 GPU’s nodig. Elk daarvan draaide gedurende meer dan drie maanden om ChatGPT van een grote upgrade te voorzien ten opzichte van het GPT-3.5-model dat bij de lancering eind 2022 draaide. Training is echter een eenmalige opdracht. In tegenstelling tot training is inferencing juist voortdurend actief. Microsoft Azure, dat GPT-4 draaide achter alle ChatGPT-sessies, had al snel veel meer rekenkracht nodig om de chatbot actief te houden via inferencing dan om het te trainen. De GPU, die nooit speciaal voor deze taak was ontworpen, werd in de beginperiode van ChatGPT simpelweg gebruikt voor inferencing als de best beschikbare en meest toegankelijke optie.
Naarmate de vraag naar inferencing toenam, werd de kloof tussen de best beschikbare optie en de werkelijk optimale hardware groot genoeg om de bouw van echte AI-chips te rechtvaardigen. Deze zijn veelal puur gericht op inferencing. Het contrast met begin 2023, toen GPU’s in feite de enige optie waren voor GenAI-workloads, is schril. Tegenwoordig zou je misschien slechts ongeveer 5.000 Maia 200-chips nodig hebben om de oorspronkelijke trainingstaak van GPT-4 met dezelfde snelheid uit te voeren. En opvallend genoeg is de Maia 200 niet eens bedoeld voor training. In plaats daarvan wil Microsoft efficiënte AI-inferencing leveren om modellen tegen lage kosten in de cloud te draaien.
AI-inferencing wordt veelzijdig
Het punt is duidelijk: niet alleen is de ruwe AI-rekenkracht drastisch verbeterd, die berekeningen zijn ook veel volwassener geworden. Andrew Wall, GM van Azure Maia sinds de vroege dagen van ChatGPT (dat overigens oorspronkelijk op Azure is ontstaan), legt uit waarom Maia 200 niet kan worden omschreven als een rechttoe rechtaan upgrade voor AI-inferencing. Hoezeer men ook probeert zich te concentreren op de 216 GB HBM3e of 7 terabyte per seconde aan geheugenbandbreedte, we begrijpen daarmee niet de volledige propositie van Azure-Maia. Organisaties die AI-workloads uitvoeren, zullen volgens Wall niet vaak specifiek overwegen om op Maia 200 te draaien. Azure richt zich in plaats daarvan op applicatielagen die de noodzaak wegnemen om een bepaalde chip te kiezen, en richt zich op hardware die het meest geschikt is voor een bepaalde AI-workload.
Microsoft Azure zal Maia 200 daarom aanbieden als een prijsverlaging voor AI-inferencing onder al de abstractielagen. Gebruikers kunnen AI-modellen en AI-taken heel goed nog steeds op andere chips draaien, zoals GPU’s. Maar niet elke workload gedraagt zich op precies dezelfde manier, en keuzes rond bedrijfsgegevens en modelselectie bepalen welke chip het meest geschikt is voor de taak in kwestie. We hebben onlangs gezien dat AWS en Cerebras de handen ineen hebben geslagen om AI-inferencing zelfs op te splitsen in de samenstellende prefill- en decodeertaken. In dat scenario wordt Trainium 3 opgestart om de KV-cache van het model te berekenen op basis van de input, terwijl de CS-3 van Cerebras de uiteindelijke output genereert.
Wall legt uit dat Maia 200 ergens tussen een algemene parallelle processor zit zoals een GPU en een gespecialiseerde chip zoals de CS-3 van Cerebras en de Language-Processing Unit (LPU) van Groq. Dit stelt Microsoft volgens Wall in staat om bekende, kritieke elementen van AI-workloads sterk te versnellen, terwijl er voldoende algemene mogelijkheden behouden blijven om de grote onbekende van toekomstige AI-taken aan te kunnen.
Dit is een lastige balans, omdat Maia dus geen directe concurrentie vormt voor GPU’s voor AI-training en niet maximaal efficiënt is voor de huidige LLM’s. Maar ja, wie had je kunnen vertellen wat de exacte architecturen van LLM’s rond 2026 zouden zijn, zeker gezien de geheimzinnigheid daaromheen bij leveranciers zoals OpenAI en Anthropic?
De grote onbekende
Heel algemeen gesproken duurt het 18 tot 36 maanden voordat een chip van de eerste ontwerpfase tot de praktische inzet op schaal komt. Daardoor kun je in 2025 geen complexe AI-accelerators voor 2026 bedenken. In plaats daarvan moet je anticiperen op de ontwikkeling van de sector en de verschuiving van workloads, en enige speelruimte inbouwen. Daarom was de gematigde keuze van Microsoft voor Maia 200 een bewuste strategie, om ervoor te zorgen dat de introductie in 2026 aan een duidelijke behoefte van bedrijven zou voldoen. Volgens Wall’s beschrijving moet zijn team continu de balans bewaken voor AI-hardwareontwikkeling. Maia 200 is deel van een heterogene AI-infrastructuur en zal meerdere modellen draaien, waaronder OpenAI’s huidige opvolger van GPT-4, GPT-5.2.
Maia 200 voor inferencing
Sommige tekenen laten de op inferencing gerichte aanpak van Maia 200 zien. Microsofts keuze voor SRAM-toewijzing, een van de cruciale beslissingen voor AI-chips, is gedurfd. 272 MB aan supersnelle on-die cache overtreft zelfs Nvidia’s huidige, op training gerichte Blackwell GPU met 192 MB. Simpel gezegd plaatst Microsoft meer data die nodig is voor de berekeningen dichter bij de rekenkracht van de chip. Dit betekent dat je veel minder “cache misses” krijgt, wat resulteert in snellere token-outputs, waardoor je AI-model zo snel mogelijk draait. Als de relevante gegevens niet in de cache beschikbaar zijn, is er een aanzienlijke 216 GB aan HBM3e-geheugen beschikbaar, waarmee de meeste AI-modellen volledig op één chip kunnen draaien. Deze specificaties voorkomen uiteindelijk latency-intensieve “round trips” naar extern geheugen en opslag, wat essentieel is voor het minimaliseren van de tijd die nodig is om tokens te genereren. Microsoft investeert hier bewust vooruitlopend op de markt om voorop te blijven lopen bij latency-gevoelige workloads.
Developers willen wellicht toegang tot de diepere lagen van Azure om al deze specificaties relevant te maken. Bare-metal-toegang draait op de programmeertaal NPL, hoewel de meesten met Maia zullen communiceren via de Triton Compiler of PyTorch, beschikbaar via de SDK. De functionaliteit is momenteel beschikbaar in preview. De toegankelijkheid van deze tools is van groot belang, aangezien geen enkele concurrent van Nvidia tot nu toe een software-ecosysteem heeft gebouwd dat kan wedijveren met CUDA. Die kloof heeft meer veelbelovende hardware begraven dan de meesten zich willen herinneren.
Het antwoord van Microsoft is om flexibiliteit mogelijk te maken. De SDK-aanpak is bedoeld om extra optimalisatiemogelijkheden te bieden voor power users die dieper willen graven. Als de abstractielagen hun werk doen, hoeven de meeste ontwikkelaars echter helemaal niet na te denken over de onderliggende chips. Of die gok loont, zal bepalen of de hardware-ambities van Maia 200 zich vertalen in iets dat ontwikkelaars daadwerkelijk gaan gebruiken.
Een gefragmenteerde toekomst
Maia 200 zal naar verwachting een opvolger krijgen in Maia 300, die te zijner tijd zal worden vervangen door Maia 400. De roadmap van Microsoft plaatst Maia 300 ergens in 2027. Toch vertelt Wall ons dat hij verwacht dat Maia 200 een levensduur van ongeveer 4 of 5 jaar zal hebben. Als dit waar blijkt te zijn, biedt dit enige troost aan degenen die vraagtekens zetten bij de snelheid van de ontwikkeling van AI-hardware. Nu de tijdlijnen bij Nvidia en AMD steeds korter worden, vraagt men zich af wanneer organisaties gewoon kunnen overgaan tot een voorspelbaar ritme van AI-hardware-upgrades. Waarom zou je AI-workloads aanpassen op chipgeneraties die onvermijdelijk binnen de kortste keren wordt vervangen? Gezien deze snelle veranderingen zijn we niet zo zeker van de levensvatbaarheid van de huidige chips over een half decennium, maar Microsoft suggereert dat die levensduur wel reëel is.
Wall denkt dat inzichten in de interne werking van AI-modellen zijn team in staat hebben gesteld het nut van Azure Maia uit te breiden. Microsoft is in dit opzicht relatief uniek. Afgezien van Google is er geen ander techbedrijf dat zich zo sterk richt op zowel de AI-hardware zelf als de modellen die daarop draaien. Microsoft zit op beide gebieden in de lift, ook al heeft het nog een lange weg te gaan. Naast de modellen die OpenAI levert, zijn er nu ook andere leveranciers op Azure te vinden. Microsoft heeft bovendien een door Mustafa Suleyman geleide AI-groep die LLM’s gaat ontwikkelen. Zoals tot nu toe besproken, heeft het bedrijf duidelijk ook een volwassen benadering van hardware. Actie ondernemen op deze twee fronten zal voordelen opleveren.
Wall beschouwt de gezamenlijke ontwikkeling van chips en modellen als een belangrijk voordeel. Door rechtstreeks met de AI-modellengroep samen te werken en contacten te onderhouden met andere AI-bedrijven, kunnen hardware engineers de chips afstemmen op de interne mechanismen van het AI-model, die telkens evolueren. Deze geïntegreerde aanpak stelt hen in staat om de ruimte op de SoC in evenwicht te brengen en nieuwe mogelijkheden te benutten die niet relevant zouden zijn als het ontwerpteam kant-en-klare modellen simpelweg als een “black box” zou behandelen.
Conclusie: complexiteit in het verschiet
Ons staat een enorme variëteit qua AI-chips te wachten. Met bestaande hardware zijn mogelijk enorme verbeteringen mogelijk door simpelweg aan te passen hoe AI-workloads over de beschikbare chips worden verdeeld. Microsoft Maia 200 zal in 2026 zijn moment beleven als een inferencing-optie met lage TCO, ook al zullen de meeste zakelijke gebruikers dit feit nooit opmerken buiten de winstcijfers om.
Hoe dan ook, chips zijn niet per se bedoeld om in de schijnwerpers te staan. Toch verwacht Wall tal van ontwikkelingen die de krantenkoppen zullen halen. Veteranen in de sector zullen hier al goed mee bekend zijn, aangezien bedrijven als TSMC, ASML en imec al jaren of langer variaties op de hieronder genoemde technologieën op hun roadmaps hebben staan. Voorbeelden zijn chiplets (chips die bestaan uit meerdere ‘chipjes’), gecompliceerde driedimensionale geheugenchips en fotonica. Wall denkt dat de wet van Moore nog steeds op de proef kan worden gesteld door “step function”-verbeteringen op deze gebieden. Toekomstige chipontwerpen zullen volgens hem strategisch nieuwe technologieën toepassen op specifieke IP-blokken (in feite zones) binnen het silicium om enorme winst te behalen.
Afgezien daarvan lijkt de toekomst van AI-computing enorm complex te worden. Abstractielagen zullen zwaar werk moeten verzetten om workloads zowel consistent als flexibel te maken. Workload-routing, latency-budgettering en kostenoptimalisatie zullen nog lange tijd relevant zijn voor AI-berekeningen. Microsoft zet hierop in, niet alleen om nu lage kosten te realiseren, maar ook om de public cloud de komende jaren tot de beste basis voor AI-workloads te maken. Het draaien van een AI-model hoeft niet langer een monolithische operatie te zijn, mits men over de hardware beschikt om de workloads naar toe te routeren. Als Microsoft erin slaagt dit populair te maken (en het krijgt daarbij wat hulp van concurrenten zoals AWS en Cerebras), kunnen modellen heel goed worden ontworpen om te profiteren van een gedecentraliseerde opzet. Deze wisselwerking zal nog lang voortduren en gaat helpen om te bepalen waar AI idealiter draait.
Wat uiteindelijk het meest opwindend is aan de toekomst van AI-rekenkracht, is dat het nog onbekend is. We weten simpelweg niet hoe de AI-architectuur er op de middellange tot lange termijn uit zal zien. CPU’s domineerden ooit andere gespecialiseerde chips die waren afgestemd op individuele taken. De GPU daagde dat paradigma uit en nu definiëren allerlei [X]PU’s verschillende processors die allemaal op de een of andere manier AI draaien. Eén ding is duidelijk: de zakelijke gebruiker wil alleen de resultaten zien, zowel in termen van financiële kosten als van AI-outputs. Wat het eerste betreft, lijkt het team van Wall er vertrouwen in te hebben dat Microsoft goed voorbereid is op de eisen van vandaag.
Lees ook: Samenwerking met Cerebras blaast AWS Trainium nieuw leven in