Nvidia trapte GTC 2026 in San Jose af met een reeks aankondigingen over snellere chips en serverracks. De meeste aandacht ging uit naar de Rubin GPU, Nvidia’s gloednieuwe GPU. Maar het is de Groq 3 LPU, het eerste resultaat van Nvidia’s deal van 20 miljard dollar met Groq, die laat zien welke richting het bedrijf inslaat om aan veranderende AI-eisen te voldoen.
Slechts drie maanden nadat Nvidia de technologie van Groq in licentie nam en oprichter Jonathan Ross samen met president Sunny Madra in dienst nam, is de eerste chip onder de nieuwe samenwerking klaar. De snelheid van die doorlooptijd is opmerkelijk, hoewel we ervan uit kunnen gaan dat het grootste deel van de ontwikkelinh plaatsvond lang voordat Groq daadwerkelijk werd overgenomen.
Groq heeft zijn Language Processing Units specifiek gebouwd voor AI-inferencing, het uitvoeren van AI-modellen, in plaats van ze te trainen. Zoals we eerder hebben onderzocht, functioneert de architectuur van de LPU als een software-defined assemblagelijn voor AI-workloads, waarbij data rechtstreeks tussen on-chip geheugenmodules wordt verplaatst zonder de extra terugkoppeling naar geheugenmodules die onvermijdelijk is bij het ontwerp van Nvidia’s GPU’s. Dat maakt inferencing bijzonder snel en omzeilt de bottlenecks die een paar jaar geleden bijna niet te voorkomen leken.
De Groq 3 voert die filosofie nog verder door. De geheugencapaciteit is weliswaar kleiner dan dat van Nvidia’s GPU’s, maar levert een bandbreedte van 40 petabytes per seconde, wat inferencing-snelheden mogelijk maakt die ver voorbij GPU’s reiken. De chip wordt geleverd in speciale Groq 3 LPX-serverracks, die elk 256 LPU’s bevatten met 128 gigabyte aan solid-state random access memory. Het enige vergelijkbare product is, relatief gezien, Cerebras, dat deze week een belangrijke overeenkomst met AWS heeft gesloten.
Lees ook: Cerebras-samenwerking geeft AWS Trainium nieuw leven
Snellere tokens voor een snellere agentic wereld
Ian Buck, VP en GM Hyperscale & HPC bij Nvidia, omschrijft de samenwerking tussen Nvidia en Groq als volgt. Groq 3 fungeert volgens hem als een coprocessor voor de Rubin-GPU’s en verhoogt de prestaties op “elke laag van het AI-model bij elk token”. De beoogde throughput voor agentic communicatie is tot 1.500 tokens per seconde. Dat cijfer moet veel meer use cases haalbaar maken: waar 100 tokens per seconde voor een menselijke lezer snel genoeg aanvoelt, zou het voor AI-agents die continu met elkaar communiceren tergend traag zijn.
Het Groq 3 LPX-rack is ontworpen om te worden gecombineerd met Nvidia’s nieuwe Vera Rubin NVL72, die Rubin-GPU’s combineert met de nieuwe Vera-CPU’s van het bedrijf. Samen zijn de twee systemen geoptimaliseerd voor modellen met biljoenen parameters en context windows van miljoenen tokens. Nvidia zegt dat de combinatie een 35 keer hogere doorvoer per megawatt vermogen en tien keer meer omzey voor datacenterbeheerders kan opleveren.
Lees ook: Dell vernieuwt AI Factory voor Nvidia Vera Rubin
Vijf nieuwe racks, één duidelijke richting
Groq 3 LPX en Vera Rubin NVL72 zijn twee van de vijf nieuwe serverracksystemen die Nvidia op GTC heeft aangekondigd. De andere zijn een speciaal Vera CPU-rack, het Bluefield-4 STX-opslagrack en het Spectrum-6 SPX-netwerkrack. Het Vera Rubin-platform omvat in totaal zeven chips en vijf racksystemen.
Tip: HPE biedt AI op elke schaal voor Nvidia Vera Rubin-aanbod