Anthropic introduceert Claude Opus 4.6, een AI-model dat behoorlijk capabel is in codeertaken. Dit dankzij verbeterde planning, een contextvenster van 1 miljoen tokens en de nieuwe functie adaptive thinking.
Anthropic kan een aantal benchmarks voorleggen waaruit blijkt dat het model beter presteert dan concurrenten. Claude Opus 4.6 scoort het hoogst op Terminal-Bench 2.0. Deze benchmark beoordeelt agents op basis van hun capaciteiten in terminal-omgevingen. Hiervoor onderwerpt Terminal-Bench 2.0 iedere agent die aan de benchmark gevoed wordt aan een aantal standaard taken. Opus 4.6 haalt daar een score van 65,4. De vorige Anthropic-versie, Opus 4.5, scoorde hier nog 59,8. GPT-5.2-codex, dat in december verscheen, komt met 64,7 het dichtst in de buurt.
Ook presteert het beter op Humanity’s Last Exam voor multidisciplinaire reasoning dan concurrenten, met een range van 40-53,1 versus de 36,6 tot 50 van GPT-5.2 Pro. GDPval-AA, dat aantoont hoe capabel een model is voor kenniswerk in finance en juridische sectoren, is eveneens in het voordeel van Opus 4.6 (1606 ten opzichte van de 1462 van GPT-5.2).
Nieuwe functies voor ontwikkelaars
Met de nieuwe adaptive thinking-functie krijgen ontwikkelaars meer controle over hoe diep het model nadenkt. Waar eerder alleen extended thinking aan of uit kon, kan Claude nu zelf bepalen wanneer grondigere redenering nuttig is. Vier effort-niveaus (low, medium, high en max) bieden hierin extra flexibiliteit. Met deze niveaus kan de gebruiker bepalen hoeveel tokens Claude gebruikt voor een reactie. High is de standaardinstelling, maar dit is dus aan te passen. Onderstaand overzicht geeft een idee wat wanneer nuttig is.

Context compaction is een andere toevoeging. Bij langlopende taken vat Claude automatisch oudere context samen wanneer het contextvenster nadert. Daardoor kunnen agents langer doorwerken zonder limieten te bereiken. De 1 miljoen tokens context is een primeur voor Opus-modellen, al geldt premiumpricing vanaf 200.000 tokens.
Claude in Excel kreeg een upgrade voor complexere taken. Het model plant nu vooraf, verwerkt ongestructureerde data en voert wijzigingen in één keer door. Claude in PowerPoint verschijnt als research preview voor Max-, Team- en Enterprise-abonnementen. Het leest layouts en slide masters om presentaties te maken die passen bij de huisstijl.
In Claude Code kunnen gebruikers nu agent-teams samenstellen die parallel werken. Dat is vooral handig voor taken als codebase reviews die opsplitsen in onafhankelijk werk. De pricing blijft 5 dollar per miljoen input-tokens en 25 dollar per miljoen output-tokens.
Veiligheid en prestaties
Anthropics systeem card laat zien dat Opus 4.6 qua veiligheid minstens zo goed scoort als andere frontier-modellen. Het vertoont weinig misleidend gedrag in safety evaluations. Ook heeft het de laagste over-refusal rate van recente Claude-modellen, wat betekent dat het minder vaak onterecht weigert te antwoorden op onschuldige vragen.
Het model haalt 76 procent op de 8-needle 1M variant van MRCR v2, een needle-in-a-haystack-test. Sonnet 4.5 scoorde daar 18,5 procent. Die verbetering moet ‘context rot’ tegengaan, het verschijnsel waarbij prestaties afnemen bij lange gesprekken. Claude Opus 4.6 is vanaf vandaag beschikbaar via claude.ai, de API en alle grote cloudplatformen.
Tip: Anthropic lanceert Claude Opus 4.5 en belooft een AI-doorbraak