Anthropic brengt ‘eerlijker’ AI-model Claude Opus 4.8 uit

Anthropic brengt ‘eerlijker’ AI-model Claude Opus 4.8 uit

Anthropic heeft Claude Opus 4.8 uitgebracht. Het is naar eigen zeggen een kleine upgrade van Opus 4.7. Het nieuwe model zou wel eerlijker zijn over de eigen vaardigheden en laat ongeveer vier keer minder vaak codeerfouten onopgemerkt. Het wordt gelanceerd voor dezelfde prijs als zijn voorganger, samen met nieuwe functies. De nieuwe functionaliteit bestaat onder meer uit dynamische workflows en door de gebruiker te bepalen inspanningsniveaus. Ondanks de suggestie dat Anthropic uiteindelijk een LLM op Mythos-niveau zal uitbrengen, lijkt Opus 4.8 nog lang niet in de buurt te komen van die vermeende vaardigheden.

Volgens Anthropic is het eerlijke karakter van Opus 4.8 wat het onderscheidt van zijn directe voorganger. Vroege testers meldden dat het model sneller onzekerheden signaleert en minder snel ongefundeerde beweringen doet over zijn eigen werk. Volgens de afstemmingsbeoordeling van Anthropic “bereikt Opus 4.8 nieuwe hoogten op onze maatstaven voor prosociale eigenschappen, zoals het ondersteunen van gebruikersautonomie en het handelen in het beste belang van de gebruiker.”

Wat de praktische voordelen betreft, bereikt Opus 4.8 volgens de benchmarks nieuwe hoogten op het gebied van agentic codering, multidisciplinair redeneren, computergebruik, kenniswerk en financiële analyse. De verbeteringen variëren van minder dan 1 procentpunt tot bijna 9 procent. Het verschil tussen 4.7 en 4.8 in deze statistieken suggereert dat de informele, niet-gemeten dagelijkse ervaring niet zomaar wezenlijk anders zal zijn, maar geleidelijk wel kunnen blijken. De tijd zal leren of dat klopt.

Uit die eerder genoemde interne beoordeling bleek dat de percentages van misleiding of medewerking aan misbruik aanzienlijk lager waren dan die van Opus 4.7. Opvallend is dat die percentages nu vergelijkbaar zijn met die van Claude Mythos Preview, het krachtige model dat Anthropic onder strenge toegangsbeperkingen heeft gehouden vanwege de zeer capabele opsporing van kwetsbaarheden die het zou hebben bewezen. De prijzen voor Opus blijven in ieder geval ongewijzigd, namelijk 5 dollar per miljoen invoertokens en 25 dollar per miljoen uitvoertokens.

Dynamische workflows en inspanningscontrole

De lancering gaat gepaard met verschillende platformupdates. Het belangrijkste voor ontwikkelaars zijn de dynamische workflows, die momenteel beschikbaar zijn in een onderzoekspreview voor Claude Code. Hiermee kan Claude een taak plannen en vervolgens honderden parallelle subagents in één sessie opstarten. De output wordt geverifieerd voordat deze wordt gerapporteerd. Volgens Anthropic kan Claude Code met Opus 4.8 nu migraties op codebaseschaal uitvoeren over honderdduizenden regels code, van het prille begin ervan tot de uiteindelijke merge.

Gebruikers op claude.ai krijgen ook een nieuwe schuifregelaar om Claude langer na te laten denken of juist niet. Bij hogere instellingen denkt Claude dus dieper na; bij lagere instellingen reageert het sneller en gebruikt het snelheidslimieten langzamer. De regelaar is beschikbaar op alle abonnementen. De snelle modus voor Opus 4.8 is nu drie keer goedkoper dan bij eerdere modellen en draait op 2,5 keer de standaardsnelheid. Opus 4.7 had al inspanningsniveaus geïntroduceerd, waaronder een xhigh-niveau, en Opus 4.8 breidt die basis uit en verfijnt deze. Dit zijn vergelijkbare functies die bedrijven als Google en OpenAI tot op zekere hoogte aanbieden, hoewel de werking van deze schuifregelaars en bedieningselementen per leverancier zal verschillen.

De Messages API is ook bijgewerkt om systeemvermeldingen binnen de berichtenarray te accepteren. Ontwikkelaars kunnen nu de instructies van Claude tijdens een taak bijwerken zonder de promptcache te verstoren. Over het algemeen lijkt Anthropic zich echt te hebben gericht op bruikbaarheid in plaats van op een flitsende nieuwe LLM-scorekaart. Niettemin, ondanks dat cijfers een subjectief gegeven zijn, komen we wel erg dicht in de buurt van het punt waarop de iteraties van Claude 4.x een beetje overbevolkt raken. Hoe dan ook, Anthropic heeft zijn keuze van benchmarks zo vaak gewijzigd dat er veelal geen directe vergelijkingen mogelijk zijn op basis van eigen resultaten. Zowel benchmarks als gebruikers suggereerden bijzonder grote verbeteringen van Opus 4.6 ten opzichte van 4.5, wat betekent dat we niet echt kunnen vertrouwen op de nummering om de nieuw bereikte mogelijkheden van Anthropic vast te stellen.

Mythos nog steeds in aantocht

Anthropic zegt in ieder geval dat Opus 4.8 een “bescheiden maar tastbare” verbetering is. Grotere veranderingen staan nog te wachten. Het bedrijf werkt aan goedkopere modellen met vergelijkbare mogelijkheden als de Opus-klasse en is van plan om in de komende weken modellen van het niveau van Mythos aan alle klanten aan te bieden. Claude Mythos, beschreven als een veel groter en sterker model dan Opus, was tot nu toe alleen toegankelijk voor een kleine groep organisaties als onderdeel van Project Glasswing. Anthropic zegt snel vooruitgang te boeken met de securitymaatregelen die nodig zijn voor een bredere uitrol. Met een gesuggereerd formaat van 10 biljoen parameters (!), een tienvoud van de schattingen die veelal bij GPT-5 en andere krachtige LLM’s genoemd werden, zou het prijskaartje flink kunnen zijn.