De discussie rond de prestaties van Claude, het AI-model van Anthropic, neemt toe. Ontwikkelaars en ervaren gebruikers signaleren dat vooral Claude Opus 4.6 en de programmeeromgeving Claude Code minder consistent functioneren dan voorheen.
Het gaat daarbij volgens VentureBeat niet alleen om kleine afwijkingen, maar om veranderingen die merkbaar zijn in dagelijks gebruik. Op online platforms groeit het aantal meldingen dat Claude vaker vastloopt bij complexe taken, sneller conclusies trekt zonder grondige analyse en minder stabiel omgaat met langere workflows. Ook wordt genoemd dat het model meer tokens verbruikt zonder betere output. Voor gebruikers die het systeem inzetten voor softwareontwikkeling is dat een duidelijke verslechtering.
Een belangrijk signaal kwam van Stella Laurenzo, Sales Director bij AMD. Zij analyseerde duizenden sessies en concludeerde dat het model sinds begin dit jaar minder diepgaand redeneert. Volgens haar verschuift het gedrag richting snellere, oppervlakkige oplossingen, terwijl juist grondige analyse essentieel is voor engineeringtaken. Ze stelt dat deze trend zichtbaar is in grote hoeveelheden gebruiksdata.
De kritiek kreeg extra gewicht doordat deze analyse breed werd gedeeld en aangevuld met andere ervaringen. Tegelijk verschenen benchmarkresultaten die een daling in prestaties suggereerden. Sommige gebruikers zagen daarin bevestiging dat er iets fundamenteel is veranderd.
Twijfel over vergelijkbaarheid van tests
Niet iedereen interpreteert die cijfers zo. Onderzoeker Paul Calcraft benadrukt op X dat de benchmarks inhoudelijk verschillen. Volgens hem zijn de resultaten gebaseerd op uiteenlopende testsets en daardoor moeilijk vergelijkbaar. In overlappende gevallen ziet hij slechts beperkte afwijkingen, wat het beeld van sterke achteruitgang nuanceert.
Binnen Anthropic wordt de kritiek anders geduid. Volgens Boris Cherny, verantwoordelijk voor Claude Code, zijn recente veranderingen vooral het gevolg van productkeuzes. Hij stelt dat aanpassingen in de interface, zoals het minder zichtbaar maken van denkstappen, geen invloed hebben op de werking van het model. Ook wijst hij op gewijzigde standaardinstellingen die bepalen hoeveel rekenkracht Claude inzet per taak, bedoeld om een betere balans te vinden tussen snelheid, kosten en prestaties.
Ook Thariq Shihipar, lid van het Claude Code team, reageerde op de kritiek. Hij geeft aan dat het bedrijf geen modellen afzwakt om piekbelasting op te vangen. Wel erkent hij dat veranderingen in presentatie invloed hebben op hoe gebruikers prestaties ervaren.
De context van recente beleidswijzigingen speelt mee. Anthropic gaf eerder aan dat gebruikslimieten tijdens drukke momenten strenger worden toegepast. Hoewel dat losstaat van modelkwaliteit, voedt het het idee dat er meer verandert achter de schermen.
Daarnaast is er discussie over wijzigingen in caching binnen Claude Code. Sommige gebruikers merkten dat opgeslagen context sneller verloopt, wat kan leiden tot hogere kosten en sneller verbruik van quota. Anthropic bevestigt aanpassingen, maar stelt dat deze onderdeel zijn van optimalisaties.
De kern van de discussie raakt daarmee ook aan vertrouwen. Voor ontwikkelaars die dagelijks afhankelijk zijn van Claude, kunnen kleine veranderingen leiden tot minder voorspelbare resultaten. Tegelijk benadrukt Anthropic dat de basis van het model niet is aangepast op een manier die de kwaliteit vermindert.