DeepSeek Coder V2: Chinees open-source-model daagt Amerika uit

Het Chinese DeepSeek weet de aandacht te trekken met het uitbrengen van DeepSeek Coder V2. Het model is gericht op developers en ondersteunt 338 programmeertalen. Bovendien gaat het om het eerste open-source-model dat GPT-4 Turbo overtreft.

DeepSeek Coder wint het dus van GPT-4 Turbo. De strijd tussen DeepSeek Coder en GPT-4 Turbo heeft echter meerdere aspecten. Zo is het tegelijk een strijd tussen Chinese en Amerikaanse innovatie en zet het open-source-AI af tegen een AI-model dat volkomen geheim is.

Momenteel heeft de VS een voorsprong in het ontwikkelen van AI. Goed scorende AI-modellen zijn momenteel namelijk voornamelijk afkomstig uit de VS. Met DeepSeek kan China de markt opschudden. Het recent uitgebrachte model is niet alleen een uitdager voor OpenAI, maar ook voor Anthropic met Claude 3 Opus en Google met Gemini 1.5 Pro.

Benchmarks tonen specialisatie in coding

Op vlak van prestaties zet het model dus noemenswaardige prestaties neer, maar wat houden deze prestaties nu concreet in? Het model helpt in codeertaken en weet om te gaan met 338 programmeertalen. Door het context window van 128.000 tekens vormen ook complexere taken geen probleem. Het context window bepaalt namelijk hoeveel tekens een gebruiker ter beschikking heeft voor het geven van input ofwel een opdracht aan de AI.

Specialisaties van het Chinese model zijn coding en wiskunde. Dat blijkt uit de benchmarks die zijn uitgevoerd via MBPP+, HumanEval en Aider, waarin de focus ligt op het evalueren van code-generatie, editing en capaciteiten om problemen op te lossen. Alleen GPT-4o scoort op de testen nog beter. Een overzicht van de benchmarks is weergegeven in de grafiek beneden.

DeepSeek-Coder-V2: First Open Source Model Beats GPT4-Turbo in Coding and Math

> Excels in coding and math, beating GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral.
> Supports 338 programming languages and 128K context length.
> Fully open-sourced with two sizes: 230B (also… pic.twitter.com/6wocYVPPrj
— DeepSeek (@deepseek_ai) June 17, 2024

Gericht presteren

Developers kunnen de specialisaties gericht inzetten. Zo is het mogelijk om alleen de expert-parameters van het model te activeren. Het gaat om 2,4 miljard parameters voor wie het kleinere model draait, bestaande uit 16 miljard parameters. Het uitgebreide model van 236 miljard parameters kan 21 miljard expert-parameters in de strijd gooien. Het model is tot deze specialisaties gekomen door training op datasets van zes biljoen tokens die voornamelijk bestonden uit coding- en wiskunde-gerelateerde data.

Het model is beschikbaar op Hugging Face. Er is ook de mogelijkheid om het model te koppelen via een API, al is dat niet gratis.

Lees ook: Copilots voor AI-code bieden zowel kansen als kopzorgen