Clockwork lanceert FleetIQ om AI-training drastisch te verbeteren

Clockwork lanceert FleetIQ om AI-training drastisch te verbeteren

Het Amerikaanse Clockwork introduceert FleetIQ, een software-laag die GPU-clusters veel efficiënter moet maken. Bij grootschalige AI-training gaat momenteel miljarden aan rekenkracht verloren door communicatieproblemen tussen processors.

Clockwork pakt dit probleem aan met FleetIQ, een Software-Driven Fabric die real-time inzicht biedt in GPU-clusters. Het systeem detecteert knelpunten binnen microseconden en stuurt verkeer automatisch om via alternatieve routes. Daarnaast voorkomt stateful fault tolerance dat complete AI-jobs opnieuw moeten worden gestart na een storing. Zoals we ooit al vernamen van Meta: zo’n 10 procent van de trainingstijd van Llama 3 ging verloren door synchronisatiefouten, hardwarefalen en andere ontbrekende optimalisaties.

De technologie van Clockwork is een vreemde eend in de bijt. Het is hardware-agnostisch en werkt met zowel Nvidia- als AMD-processors, iets dat niet geldt voor de optimalisaties die het Chinese team achter DeepSeek hanteerde. Het draait op verschillende netwerkprotocollen zoals InfiniBand en Ethernet, zowel on-premises als in de cloud.

Miljardenverspilling bij AI-training

AI-training is verworden tot een communicatieprobleem. Waar vroeger pure rekenkracht de bottleneck vormde, ligt nu de uitdaging bij het synchroniseren van duizenden GPU’s in een cluster. Als één verbinding hapering vertoont, komt het hele systeem stil te liggen. Op die manier worden de miljarden dollars aan gecombineerde hardwarekosten en stroomverbruik teniet gedaan.

De cijfers zijn navenant. GPU-clusters bereiken slechts 30 tot 55 procent van hun theoretische prestaties. Bij een cluster van 100.000 GPU’s, goed voor een investering van 5 tot 7 miljard dollar, betekent dit een verspilling van ruim 2,25 miljard dollar aan onbenutte capaciteit.

Praktijkresultaten

De early adopters van Clockwork laten veelbelovende resultaten zien. Uber ziet significante verbeteringen in het netwerk binnen zijn hybride multi-cloud omgeving dankzij observabilitytooling. Het techbedrijf kan nu problemen binnen minuten lokaliseren in plaats van uren.

Ook Europese partijen profiteren van de oplossing. DCAI, de operator van Denemarken’s AI-supercomputer Gefion, meldt dat Clockwork helpt bij het efficiënter en betrouwbaarder draaien van workloads. Nebius ziet verbeteringen in de betrouwbaarheid van zijn AI-infrastructuur.

Funding en leiderschap

De FleetIQ-lancering gaat gepaard met nieuwe financiering. Bestaande investeerder NEA leidde een investeringsronde waarin het bedrijf op een waardering uitkwam die vier keer hoger ligt dan twee jaar geleden. Nieuwe geldschieters zijn onder meer Intel-CEO Lip-Bu Tan en voormalig Cisco-topman John Chambers.

Het bedrijf dat geboren werd in het Amerikaanse Stanford heeft tevens nieuwe leiding aangetrokken. Suresh Vasudevan, bekend van Nimble Storage en Sysdig, is de nieuwe CEO. Joe Tarantino, voorheen werkzaam bij neocloud-partner GMI Cloud, wordt VP Worldwide Sales.

“Communicatie is de nieuwe Moore’s Law”, stelt Vasudevan. De Software-Driven Fabric van Clockwork moet organisaties helpen meer uit hun bestaande infrastructuur te halen. Voor het komende decennium wordt dit volgens hem cruciaal voor economisch haalbare AI. Daar zullen meer optimalisatiestappen voor nodig zijn, waar we wellicht in de toekomst wederom vanuit Clockwork progressie zullen zien.