Chinese AI-startup DeepSeek brengt medio februari zijn volgende generatie AI-model V4 uit met sterke codeermogelijkheden.
Volgens The Information hebben interne tests door DeepSeek-medewerkers laten zien dat V4 mogelijk beter presteert dan rivalen als Anthropic’s Claude en OpenAI’s GPT-reeks specifiek bij codeertaken.
Het nieuwste V4-model heeft ook doorbraken gerealiseerd bij het verwerken van extreem lange codeprompts. Dat kan een belangrijk voordeel zijn voor ontwikkelaars die aan complexe softwareprojecten werken. De verwerkingscapaciteit voor lange contexten bouwt voort op de sparse attention-technologie in V3.2-Exp.
DeepSeek maakt gebruik van een Mixture of Experts (MoE)-architectuur die energie-efficiënter werkt dan klassieke dense modellen. Bij V3 was er al sprake van 671 miljard parameters, waarbij per prompt slechts een deel wordt geactiveerd.
Groeiende internationale aandacht
DeepSeek heeft wereldwijd aandacht getrokken met zijn efficiënte aanpak. De training van het R1-model kostte naar verluidt slechts 294.000 dollar, aanzienlijk minder dan wat Amerikaanse bedrijven schatten voor vergelijkbare modellen.
Toch staat het bedrijf onder toenemend toezicht. Reuters meldde eerder dat de Chinese AI-startup, die in januari claimde een goedkoop alternatief voor ChatGPT te hebben gebouwd, wordt onderzocht in sommige landen vanwege security- en privacypraktijken. De lancering van V4 medio februari zal uitwijzen of DeepSeek zijn positie verder kan verstevigen tegenover de gevestigde spelers in de AI-markt.
Tip: DeepSeek-V3 overkomt uitdagingen van Mixture of Experts-techniek