Marvell brengt AI-switchchip met capaciteit van 102,4 Tbps uit

Marvell brengt AI-switchchip met capaciteit van 102,4 Tbps uit

Marvell heeft de Teralynx T100 aangekondigd, een nieuwe netwerkswitchchip voor AI-datacenters. De chip biedt een doorvoercapaciteit van 102,4 Tbps en is bedoeld voor de netwerken die grote clusters met GPU’s en andere AI-accelerators met elkaar verbinden.

De introductie komt op een moment waarop de omvang van AI-clusters snel groeit. Trainingsomgevingen bestaan steeds vaker uit duizenden tot tienduizenden accelerators, waardoor de eisen aan de onderliggende netwerklaag toenemen. Niet alleen bandbreedte speelt daarbij een rol, maar ook latency, energieverbruik en de mogelijkheid om grote aantallen systemen efficiënt met elkaar te verbinden.

De introductie weerspiegelt een bredere verschuiving binnen AI-infrastructuur. Waar de aandacht lange tijd vooral uitging naar GPU’s en AI-accelerators, wordt de netwerklaag steeds belangrijker. In grote AI-clusters moeten tienduizenden systemen voortdurend gegevens uitwisselen. Daardoor worden latency, energieverbruik en schaalbaarheid van switches steeds bepalender voor de prestaties van een AI-datacenter.

Volgens Marvell verbruikt de T100 minder dan 1.000 watt en ligt het energieverbruik daarmee lager dan dat van concurrerende producten in dezelfde categorie. Dat is relevant voor datacenters waar het totale stroomverbruik steeds verder oploopt. Moderne GPU-racks naderen inmiddels vermogens van circa 120 kW, terwijl netwerkcomponenten volgens het bedrijf verantwoordelijk zijn voor 15 tot 25 procent van het totale stroomverbruik van een rack.

Minder netwerklagen

De Teralynx T100 ondersteunt configuraties met maximaal 512 poorten. Daardoor kunnen operators volgens Marvell grotere netwerken bouwen met minder tussenliggende schakels. Minder netwerklagen kunnen de latency verlagen en het aantal benodigde optische verbindingen terugdringen.

De chip is geproduceerd op een 3-nanometerproces en ontworpen als één geïntegreerd siliciumontwerp. Volgens Marvell maakt dat een andere afweging mogelijk dan bij switches die oorspronkelijk voor traditionele enterprise- of cloudomgevingen zijn ontwikkeld en later zijn aangepast voor AI-toepassingen. Het bedrijf stelt daarnaast dat de architectuur is geoptimaliseerd voor voorspelbare prestaties in grootschalige AI-omgevingen, waar vertragingen in één deel van het netwerk invloed kunnen hebben op de prestaties van een volledige trainingsomgeving.

Naast traditionele Ethernet-omgevingen richt Marvell zich nadrukkelijk op nieuwe netwerkarchitecturen voor AI. De T100 ondersteunt onder meer Ethernet Scale-Up Networking (ESUN) en sluit aan op specificaties van het Ultra Ethernet Consortium. De chip kan daardoor worden ingezet in zowel zogenoemde scale-out-netwerken, waarbij grote aantallen systemen met elkaar worden verbonden, als scale-up-architecturen binnen afzonderlijke AI-systemen.

Marvell levert de T100 in verschillende verpakkingsvarianten, waaronder uitvoeringen met geïntegreerde koper- of optische verbindingen. Dat moet hyperscalers en cloudproviders meer flexibiliteit geven bij het ontwerpen van hun netwerkarchitectuur.

Concurrentie in AI-netwerken neemt toe

De introductie van de T100 onderstreept het toenemende belang van netwerktechnologie binnen AI-infrastructuur. Waar de aandacht de afgelopen jaren vooral uitging naar GPU’s van partijen als NVIDIA en AI-versnellers van onder meer AMD, groeit ook de concurrentie in de netwerklaag.

Voor leveranciers van AI-infrastructuur wordt de efficiëntie van het netwerk steeds belangrijker naarmate clusters groter worden. Vertragingen in communicatie tussen accelerators kunnen de prestaties van trainings- en inferentieworkloads beperken, terwijl het energieverbruik van netwerkapparatuur een steeds grotere factor wordt in de totale exploitatiekosten van AI-datacenters.

Marvell verwacht dit kwartaal te starten met het leveren van de eerste exemplaren van de Teralynx T100 aan klanten.