Nvidia's Groq 3 LPU richt zich op agentic AI-inferencing

Nvidia trapte GTC 2026 in San Jose af met een reeks aankondigingen over snellere chips en serverracks. De meeste aandacht ging uit naar de Rubin GPU, Nvidia’s gloednieuwe GPU. Maar het is de Groq 3 LPU, het eerste resultaat van Nvidia’s deal van 20 miljard dollar met Groq, die laat zien welke richting het bedrijf inslaat om aan veranderende AI-eisen te voldoen.

Slechts drie maanden nadat Nvidia de technologie van Groq in licentie nam en oprichter Jonathan Ross samen met president Sunny Madra in dienst nam, is de eerste chip onder de nieuwe samenwerking klaar. De snelheid van die doorlooptijd is opmerkelijk, hoewel we ervan uit kunnen gaan dat het grootste deel van de ontwikkelinh plaatsvond lang voordat Groq daadwerkelijk werd overgenomen.

Groq heeft zijn Language Processing Units specifiek gebouwd voor AI-inferencing, het uitvoeren van AI-modellen, in plaats van ze te trainen. Zoals we eerder hebben onderzocht, functioneert de architectuur van de LPU als een software-defined assemblagelijn voor AI-workloads, waarbij data rechtstreeks tussen on-chip geheugenmodules wordt verplaatst zonder de extra terugkoppeling naar geheugenmodules die onvermijdelijk is bij het ontwerp van Nvidia’s GPU’s. Dat maakt inferencing bijzonder snel en omzeilt de bottlenecks die een paar jaar geleden bijna niet te voorkomen leken.

De Groq 3 voert die filosofie nog verder door. De geheugencapaciteit is weliswaar kleiner dan dat van Nvidia’s GPU’s, maar levert een bandbreedte van 40 petabytes per seconde, wat inferencing-snelheden mogelijk maakt die ver voorbij GPU’s reiken. De chip wordt geleverd in speciale Groq 3 LPX-serverracks, die elk 256 LPU’s bevatten met 128 gigabyte aan solid-state random access memory. Het enige vergelijkbare product is, relatief gezien, Cerebras, dat deze week een belangrijke overeenkomst met AWS heeft gesloten.

Lees ook: Cerebras-samenwerking geeft AWS Trainium nieuw leven

Snellere tokens voor een snellere agentic wereld

Ian Buck, VP en GM Hyperscale & HPC bij Nvidia, omschrijft de samenwerking tussen Nvidia en Groq als volgt. Groq 3 fungeert volgens hem als een coprocessor voor de Rubin-GPU’s en verhoogt de prestaties op “elke laag van het AI-model bij elk token”. De beoogde throughput voor agentic communicatie is tot 1.500 tokens per seconde. Dat cijfer moet veel meer use cases haalbaar maken: waar 100 tokens per seconde voor een menselijke lezer snel genoeg aanvoelt, zou het voor AI-agents die continu met elkaar communiceren tergend traag zijn.

Het Groq 3 LPX-rack is ontworpen om te worden gecombineerd met Nvidia’s nieuwe Vera Rubin NVL72, die Rubin-GPU’s combineert met de nieuwe Vera-CPU’s van het bedrijf. Samen zijn de twee systemen geoptimaliseerd voor modellen met biljoenen parameters en context windows van miljoenen tokens. Nvidia zegt dat de combinatie een 35 keer hogere doorvoer per megawatt vermogen en tien keer meer omzey voor datacenterbeheerders kan opleveren.

Lees ook: Dell vernieuwt AI Factory voor Nvidia Vera Rubin

Vijf nieuwe racks, één duidelijke richting

Groq 3 LPX en Vera Rubin NVL72 zijn twee van de vijf nieuwe serverracksystemen die Nvidia op GTC heeft aangekondigd. De andere zijn een speciaal Vera CPU-rack, het Bluefield-4 STX-opslagrack en het Spectrum-6 SPX-netwerkrack. Het Vera Rubin-platform omvat in totaal zeven chips en vijf racksystemen.

Tip: HPE biedt AI op elke schaal voor Nvidia Vera Rubin-aanbod

Lees meer over Infrastructure

Expert aan het woord

Nvidia’s Groq 3 LPU richt zich op agentic AI-inferencing

Snellere tokens voor een snellere agentic wereld

Vijf nieuwe racks, één duidelijke richting

Blijf op de hoogte, abonneer!

De ‘RAMpocalypse’ is een waarschuwing voor strengere prestatie-KPI’s

JFrog: Hoe je problemen met AI-workflows overwint

Yenlo groeit uit tot schaalbare integratiepartner

Cerebras-samenwerking geeft AWS Trainium nieuw leven

What makes Salesforce agents reliable? Architecture explained

SAP's AI workforce strategy: upskilling 100,000 employees

Workday Rising EMEA: platform transformation: Pipedream, AI agents and sovereignty

How Ansible becomes the execution layer for agentic AI

Hoe slimme, secure en simpele vergadertechnologie het verschil kan maken op de hybride werkplek

API’s zijn de ruggengraat van onze digitale economie

Van huddle tot boardroom: hoe ClickShare vergaderen herdefinieert

2026 voorspellingen voor de cybersecuritymarkt

De IT Afdeling van de toekomst

GITEX ASIA 2026

Southeast Asia AI Application Summit 2026

SAS Innovate 2026

Team '26

Red Hat Summit

Hoe je stap voor stap een AI-gedreven kennisapplicatie bouwt

Waarom automatisering onmisbaar is in moderne cybersecurity

Wat is cyberrisico en waarom doet het ertoe?

XDR uitgelegd: waarom brede zichtbaarheid cruciaal is