2min Analytics

DeepSeek lanceert V3.2-Exp met doorbraak in sparse attention

DeepSeek lanceert V3.2-Exp met doorbraak in sparse attention

DeepSeek introduceert zijn experimentele V3.2-Exp model met sparse attention-technologie. De innovatie belooft lange teksten veel efficiënter te verwerken, terwijl de output-kwaliteit vrijwel identiek blijft aan het eerdere V3.1-Terminus model.

Het Chinese AI-bedrijf DeepSeek heeft V3.2-Exp gelanceerd, een tussenstap naar zijn volgende generatie architectuur. De experimentele versie bouwt voort op het V3.1-Terminus model, maar introduceert DeepSeek Sparse Attention (DSA). Deze sparse attention-technologie moet training en inference bij lange contexten aanzienlijk verbeteren.

V3.2-Exp is direct beschikbaar voor ontwikkelaars via verschillende platformen. HuggingFace biedt toegang tot het model, terwijl vLLM day-0 ondersteuning aanbiedt. Het model werkt op verschillende hardware-configuraties, van Nvidia H200 tot AMD-chips.

Voor ontwikkelaars die lokaal willen draaien, heeft DeepSeek inference-code beschikbaar gesteld. Het conversieproces van HuggingFace model weights naar lokaal gebruik vereist wel aanpassingen voor GPU-configuratie en expert-instellingen.

Sparse attention als doorbraak

De kern van de update ligt in de sparse attention-mechaniek. Deze technologie selecteert alleen relevante delen van lange teksten voor verwerking, waardoor de rekenkracht drastisch omlaag gaat. Traditionele attention-mechanismen bekijken elk woord in verhouding tot alle andere woorden, wat bij lange teksten exponentieel meer rekenkracht vraagt.

DSA realiseert volgens DeepSeek “fine-grained sparse attention” voor het eerst. Het systeem behoudt de modelkwaliteit terwijl het de efficiency bij lange contexten substantieel verbetert. Voor ontwikkelaars betekent dit snellere training en goedkopere inference bij uitgebreide documenten.

Prestaties op benchmarks

DeepSeek heeft de V3.2-Exp grondig getest tegen het eerdere V3.1-Terminus model. Op benchmarks als MMLU-Pro scoren beide modellen identiek met 85,0 punten. Bij programmeeruitdagingen als Codeforces presteert V3.2-Exp zelfs iets beter met 2121 punten versus 2046 voor V3.1-Terminus. Het bedrijf stelt bewust identieke trainingsconfiguraties te hebben gebruikt om een eerlijke vergelijking mogelijk te maken.

DeepSeek heeft ook open-source kernels uitgebracht. TileLang biedt kernels voor onderzoeksdoeleinden, terwijl DeepGEMM en FlashMLA high-performance CUDA-kernels leveren voor productiegebruik. Deze tools moeten ontwikkelaars helpen de sparse attention optimaal te benutten.

Het V3.2-Exp model opereert onder MIT-licentie, waardoor zowel commercieel als academisch gebruik mogelijk is. Voor organisaties die met lange documenten werken, kan de sparse attention-technologie een belangrijke efficiëntieverbetering betekenen.

Lees ook: DeepSeek vertraagd door GPU-exportrestricties