4 min Applications

Claude 3.7 Sonnet denkt langer na als de gebruiker het wil

Claude Code in preview beschikbaar

Claude 3.7 Sonnet denkt langer na als de gebruiker het wil

Nadat DeepSeek, OpenAI en Google al nieuwe LLM’s beschikbaar stelden in het nieuwe jaar, is ook Anthropic aan de beurt. Claude 3.7 Sonnet kan naar wens redeneren, terwijl Claude Code een command line-tool is voor “agentic coding”.

Anthropic zwemt tegen de stroom in met Claude 3.7 Sonnet. De naam alleen al suggereert een evolutionaire stap ten opzichte van 3.5 Sonnet. Daarnaast zou er een groter en capabeler Claude 3.7 Opus verwacht mogen worden (en een compactere Claude 3.7 Haiku), hoewel deze ontbrak bij de 3.5-release. Deze keuze wijkt af van het OpenAI- en Google-aanbod, die een verscheidenheid aan modellen aanbieden met verschillende vaardigheden. Anthropic hanteert echter een filosofie waarbij één LLM kan schakelen tussen vlugge antwoorden en uitgebreide redeneringen.

Betalende gebruikers kunnen voortaan kiezen hoe lang Claude mag nadenken. Extended thinking-mode leidt tot zelfreflectie van de chatbot binnen de output, vergelijkbaar met wat OpenAI o1, DeepSeek R1 en Google Gemini Thinking doen. De troef: er valt fijnmazig te kiezen hoe lang Claude precies mag nadenken, van bijna niet tot de gehele output token-limiet van 128.000.

Voor werkelijk gebruik

Op benchmarks is 3.7 Sonnet de evenknie van OpenAI o1, nog altijd het duurste en krachtigste AI-model op de markt. Afhankelijk van de test zitten OpenAI o3-mini, DeepSeek R1 en Grok 3 Beta in de buurt of streven ze de nieuwe Anthropic-LLM voorbij. Laatstgenoemde wil wel meer dan ooit benadrukken dat benchmarks niet alles zeggen.

Anthropic heeft namelijk goed gekeken naar het werkelijke gebruik van Claude. Via een Economic Index heeft het ingeschat welke beroepen de chatbot raadplegen. Op basis van deze gegevens, die we eerder uitgebreid hebben besproken, is Claude 3.7 Sonnet verfijnd om goed uit de verf te komen.

Het is al langere tijd het geval dat het subjectieve commentaar omtrent Claude een stuk positiever is dan de AI-benchmarks doen vermoeden. Anders gezegd: de kwaliteit van Anthropic’s modellen zijn maar lastig te vangen in cijfers.

Claude Code

Eén van de werkvelden waarin Claude continu sterker presteert dan de benchmarks suggereren, is coderen. Anthropic stelt dan ook dat Sonnet de geprefereerde LLM is onder ontwikkelaars wereldwijd. In een limited research preview-vorm verschijnt nu ook Claude Code, dat nog capabeler is als programmeerhulp.

Sterker nog, Claude Code is Anthropic’s eerste opzet van een agentic coding tool. Het kan programmeercode opzoeken en nalezen, bestanden aanpassen, tests schrijven en draaien en code naar GitHub pushen. Belangrijk hierbij is dat het transparant is over het eigen werkproces, zodat gebruikers waar nodig op de rem kunnen trappen. Vroege tests laten zien dat Claude Code taken in één keer klaart die anders drie kwartier duren.

Voor deze testversie van Claude Code is er een inschrijving nodig.

Eén model om alles te doen

De release van Claude 3.7 Sonnet klinkt als Anthropic’s late entree in de strijd der redeneermodellen. OpenAI o1-preview was bijvoorbeeld al in september beschikbaar, terwijl elke grote AI-modelbouwer behalve Meta en Mistral een vorm van redeneren mogelijk maken met nieuwe releases.

Anthropic-CEO Dario Amodei heeft echter deze suggestie al op voorhand verworpen. Redeneren is iets dat geleidelijk kan ontstaan binnen een AI-model en niet met een aan-/uit-knop te definiëren, stelt hij. Zo vertoonde Claude 3.5 Sonnet al tekenen van dezelfde redeneerstappen die andere ‘reasoning’-modellen uitvoerden. De nieuwe Claude-release laat dit duidelijker zien dan ooit door de redeneerfunctie aanpasbaar te maken per output. We hoeven dus niet een Claude Thinking te verwachten.

Dit is overigens ook wat OpenAI naar verluidt overweegt met GPT-5. Hoewel die AI-maker wellicht onderhuids schakelt tussen verschillende modellen afhankelijk van de input van de gebruiker, wil CEO Sam Altman af van de keuzelijst van LLM’s. OpenAI wil in plaats daarvan detecteren of een vraag wel de prijzige redeneer-tokens vereist, iets dat ongetwijfeld de portemonnee spaart van OpenAI.

Vanuit diezelfde overweging is het logisch dat Anthropic het redeneren achter een betaalmuur zet. AI-redeneerstappen zijn nu eenmaal duur om te berekenen. Echter stelt Anthropic dat dit denkproces moet kunnen variëren, maar impliciet alleen voor betalende gebruikers. Claude 3.7 Sonnet is gratis namelijk niet te vertellen hoe lang het moet nadenken voordat het antwoord.

Lees ook: OpenAI lanceert GPT-5 binnen enkele maanden, GPT-4.5 al binnen weken