DeepSeek doorbreekt kostenbarrière in AI wedloop

DeepSeek doorbreekt kostenbarrière in AI wedloop

DeepSeek geeft aan dat de training van zijn redeneringsgerichte R1-model slechts 294.000 dollar kostte. Dat bedrag ligt ver onder de schattingen die Amerikaanse bedrijven hanteren en zet daarmee de discussie over de positie van China in de mondiale AI-race op scherp.

Dit meldt Reuters. In januari maakte DeepSeek al naam door de introductie van relatief goedkope AI-systemen. Die aankondiging zorgde voor onrust op de aandelenmarkten. Dit omdat beleggers vreesden dat gevestigde spelers als Nvidia hun voorsprong zouden verliezen. Sindsdien hield het bedrijf zich grotendeels op de achtergrond, met slechts enkele productupdates, terwijl oprichter Liang Wenfeng nauwelijks publiekelijk van zich liet horen.

In een artikel in Nature onthulde DeepSeek dat de R1-training plaatsvond op een cluster van 512 Nvidia H800-chips en in totaal tachtig uur duurde. Het is de eerste keer dat DeepSeek concrete cijfers deelt over zijn trainingskosten. Ter vergelijking: Sam Altman van OpenAI stelde vorig jaar dat het trainen van fundamentele modellen meer dan honderd miljoen dollar kostte, zonder verdere details te geven.

De beweringen van DeepSeek roepen vragen op, vooral omdat de H800-chips speciaal door Nvidia zijn ontworpen voor de Chinese markt nadat Washington de export van de krachtigere H100- en A100-chips had verboden. Amerikaanse bronnen beweerden eerder dat DeepSeek toch de beschikking kreeg over grote aantallen H100-chips. Het bedrijf hield echter vol uitsluitend H800’s te hebben gebruikt. In een aanvullende verklaring gaf DeepSeek voor het eerst toe dat het ook A100-chips bezit en inzette tijdens voorbereidende experimenten met kleinere modellen.

Geen modellen van OpenAI gekopieerd

Het relatief lage kostenplaatje van R1 kan deels verklaard worden door de methode van modeldistillatie. Daarbij leert een nieuw model van een bestaand systeem, zodat minder rekenkracht nodig is. Amerikaanse AI-experts suggereerden dat DeepSeek opzettelijk modellen van OpenAI zou hebben nagemaakt. Het Chinese bedrijf benadrukt echter dat distillatie een gebruikelijke techniek is die betere prestaties mogelijk maakt tegen lagere kosten en daardoor de toegang tot AI breder maakt.

Daarnaast gaf DeepSeek aan dat de trainingsdata voor het V3-model onder meer bestond uit webpagina’s die antwoorden van andere AI-systemen bevatten. Volgens het bedrijf was dit een onbedoeld neveneffect van het gebruik van openbare bronnen en geen doelbewuste poging om kennis van concurrenten te kopiëren. Of de lage kosten daadwerkelijk representatief zijn en welke impact dit heeft op de internationale concurrentiepositie, zal de komende tijd moeten blijken.