3 min Devops

DeepSeek-V3 overkomt uitdagingen van Mixture of Experts-techniek

Kwalitatieve antwoorden op een energiezuinige manier

DeepSeek-V3 overkomt uitdagingen van Mixture of Experts-techniek

DeepSeek brengt de derde versie van zijn model uit als open-source product. Het model telt 671 miljard parameters, maar zet deze niet allemaal tegelijk in om een antwoord te geven.

DeepSeek is een AI-ontwikkelaar van Chinese oorsprong die via open-source-producten de concurrentie aangaat met commerciële ontwikkelaars. Het bedrijf is daar regelmatig succesvol in. Net als bij de meest recente ontwikkeling met DeepSeek-V3, dat via Hugging Face te downloaden is.

Het model is een verbetering van de vorige versie en scoort in de benchmarks beter dan Llama 3.1 405B en Qwen2.5 72B. Voornamelijk in codeertaken en wiskundige berekeningen blinkt het model uit. De prestaties van modellen van Anthropic en OpenAI worden dan weer nip niet gehaald. Desondanks heeft het model interessante zaken te bieden waardoor toekomstige LLM’s ook weer verder kunnen evolueren.

Mixture of Experts

DeepSeek-V3 is gebaseerd op een MoE (Mixture of Experts)-architectuur. Het gaat om een techniek die in het verleden voor andere spelers reeds heeft bewezen succesvol te zijn. Microsoft lanceerde de voorbije zomer bijvoorbeeld de Phi-3.5-modellen op basis van deze techniek.

In een Mixture of Experts-techniek zijn er meerder modellen aanwezig, die ‘experts’ worden genoemd. Ieder model heeft expertise in een ander domein. Op basis van de vraag of prompt wordt er gecommuniceerd met het best beschikbare model. Dat levert de gebruiker het best mogelijke resultaat op.

Energiezuiniger

Tegelijk is de methode efficiënter en zorgt het ervoor dat er minder hardware-capaciteit wordt verbruikt. Hoewel de volledige LLM beschikt over 671 miljard parameters, bevat ieder individueel model er 34 miljard. Op vlak van energieprestatie maakt deze opdeling dat een zoekvraag veel efficiënter wordt beantwoord.

Tijdens de training is er ook veel te halen uit de inzet van een MoE-techniek. De trainingsset bestond uit 14,8 biljoen tokens, waar hardware 2.788 duizend uren voor heeft moeten presteren. Een relatief kleine hoeveelheid in vergelijking met de tienduizenden GPU’s die dagen moeten draaien voor andere projecten. Deze trainingsmethode drukt ook de kosten voor de ontwikkelaar. Een aspect dat OpenAI nog tot op heden nekt.

Lees ook: Business-model OpenAI werkt niet: faillisement dreigt

Beperking aangepakt

Alle efficiëntie uit deze techniek komt met een keerzijde. Eerdere ontwikkelaars liepen ertegen dat data ongelijk verdeeld werd over de verschillende ‘experts’. Dit kon een negatieve invloed hebben op de kwaliteit waarmee een zoekvraag dan wordt beantwoord.

DeepSeek beweert een methode te hebben ontwikkeld om deze problemen te voorkomen. Deze methode noemt het aandacht of attention en identificeert de sleutelelementen in de zin. Dit is een reeds bekende techniek, maar DeepSeek zorgt nu dat de LLM meerdere keren op zoek gaat naar deze elementen. Dit om belangrijke details die bij een eerst lezing mogelijks over het hoofd werden gezien, toch te identificeren.

Tot slot zet DeepSeek-V3 nog een trucje in om snellere inferentie mogelijk te maken. Het model zorgt hierbij dat er steeds meerdere tokens tegelijk worden gegeneerd. Dit terwijl andere modellen token-per-token werken.

Momenteel wordt de nieuwe versie aangeboden aan dezelfde prijs als DeepSeek-V2. Vanaf 8 februari zal daar verandering in komen.