Anthropic lanceert met Claude Sonnet 4.5 naar eigen zeggen het beste codemodel ter wereld. Ook komt het met forse verbeteringen in redenering en wiskundige vaardigheden.
Op OSWorld, een benchmark voor AI-modellen die real-world computertaken uitvoeren, leidt Sonnet 4.5 met 61,4 procent. Vier maanden geleden behaalde Sonnet 4 nog 42,2 procent op deze test.
Anthropics introduceert samen met het model ook de Claude Agent SDK. Deze infrastructuur, die ook ten grondslag ligt aan Claude Code, wordt nu beschikbaar gesteld aan ontwikkelaars. Het bedrijf heeft zes maanden besteed aan het oplossen van uitdagingen rond geheugen, toegangsrechten en coördinatie tussen subagents.
Prestaties op codering
Claude Sonnet 4.5 scoort het hoogst op SWE-bench Verified, een evaluatie die real-world softwareontwikkelingsvaardigheden meet. Hier ligt het percentage op 77,2, tegenover de 74,5 procent van Opus 4.1 en GPT-5 Codex.
Het model kan volgens Anthropic meer dan 30 uur gefocust blijven op complexe, meerstaps taken. Dit is een significante verbetering ten opzichte van eerdere versies. Hierdoor kan Claude Sonnet 4.5 autonoom 30 uur coderen.
“Claude Sonnet 4.5 is het sterkste model voor het bouwen van complexe agents. Het is het beste model voor computergebruik”, aldus Anthropic in de aankondiging. Het bedrijf benadrukt dat code overal aanwezig is in moderne applicaties, spreadsheets en softwaretools.
Beschikbaarheid en prijsstelling
Claude Sonnet 4.5 is vanaf vandaag beschikbaar via de Claude API onder de naam claude-sonnet-4-5. De prijsstelling blijft gelijk aan Claude Sonnet 4: 3 dollar per miljoen input tokens en 15 dollar per miljoen output tokens.
Naast de standaard functies heeft Anthropic ook checkpoints toegevoegd aan Claude Code, een van de meest gevraagde features. Gebruikers kunnen nu hun voortgang opslaan en instant terugkeren naar een eerdere staat. Ook is er een native VS Code extensie beschikbaar.
Veiligheid en alignment
Claude Sonnet 4.5 wordt gepresenteerd als het meest uitgelijnd frontier-model dat Anthropic ooit heeft uitgebracht. Het toont grote verbeteringen in het verminderen van problematisch gedrag zoals vleierij, misleiding en machtzoekend gedrag.
Het model valt onder Anthropics AI Safety Level 3 (ASL-3) beschermingen. Deze bevatten filters die potentieel gevaarlijke inputs en outputs detecteren, met name die gerelateerd aan chemische, biologische, radiologische en nucleaire wapens. Anthropic heeft het aantal false-positives met een factor tien verminderd sinds de oorspronkelijke implementatie.
Anthropic biedt ook een tijdelijke onderzoekspreview genaamd “Imagine with Claude”. In dit experiment genereert Claude real-time software zonder vooraf geschreven code. De functie is vijf dagen beschikbaar voor Max-gebruikers.