AI-codeertool Lovable ziet grote verbeteringen in de code die Claude produceert. Claude Opus 4 en Sonnet 4 maken minder fouten, werken sneller en zijn daardoor een nuttigere programmeerassistent.
Claude-maker Anthropic rolde onlangs de twee nieuwe modellen uit. Claude 4 is de langverwachte opvolger van het succesvolle 3.5/3.7 Sonnet. Laatstgenoemde LLM was al een favoriet onder programmeurs, hoewel het (net als alle andere modellen) veel steken liet vallen.
Indrukwekkende benchmarks
In een blogpost stelde Anthropic dat Claude Opus 4 een score van 72,5 procent behaalde op SWE-bench (Software Engineering Benchmark). Deze benchmark is ontworpen om de software-engineering capaciteiten van AI-modellen te testen. Daardoor kent het veel facetten: LLM’s moeten proberen GitHub-issues op te lossen die allereerst begrepen moeten worden. Pas daarna volgt het schrijven van code.
De tests tonen aan dat Opus 4 uitstekend presteert bij langlopende taken die aanhoudende focus en duizenden stappen vereisen. Volgens Anthropic kon het nieuwste model zelfs zeven uur achtereen aan code werken zonder kwaliteitsverlies. Dat is een grote claim: LLM’s bezitten de beruchte karaktertrek om te focussen op de initiële input, waarna de output steeds slechter wordt.
Het bedrijf positioneert de nieuwe generatie modellen daarom als een doorbraak op het gebied van codering, geavanceerd redeneren en autonome AI-systemen. Daaraan gepaard is het risiconiveau volgens Anthropic hoger dan ooit: voor het eerst activeert het AI Safety Level 3-beschermingen. Dit moet voorkomen dat Claude 4 meewerkt aan kwaadaardige taken die het in theorie zou kunnen uitvoeren.
Praktijkverbeteringen bij Lovable
Lovable, een ontwikkelaar van “AI-gestuurde prompt-gebaseerde web- en app-bouwers” (lees: vibe coding), heeft soortgelijke verbeteringen waargenomen na de overstap naar Claude 4. Het bedrijf gebruikt Claude voor de eigen oplossing.
In een bericht op X meldt Lovable dat het na implementatie van Claude 4 te maken heeft met 25 procent minder fouten en een algehele snelheidsverbetering van 40 procent. Deze verbeteringen gelden zowel voor het aanmaken van nieuwe projecten als voor het bewerken van bestaande projecten.
In een apart bericht bevestigde Lovable-oprichter Anton Osika dat “Claude 4 de meeste fouten van Lovable heeft weggenomen”, waarbij hij bovenal verwees naar syntaxfouten bij het coderen.
Impact voor ontwikkelaars
De verbeteringen in Claude 4 zijn groot voor ontwikkelaars die afhankelijk zijn van AI-codeertools. Dat zijn er nogal wat in theorie: eenieder die iets wil programmeren zonder enige expertise, moet van LLM’s praktisch foutloze antwoorden krijgen. Syntaxfouten behoren tot de meest voorkomende problemen bij het automatisch genereren van code, en een vermindering van 25 procent kan de productiviteit aanzienlijk verhogen.
De snelheidsverbetering van 40 procent betekent bovendien dat ontwikkelaars (hoe ervaren ook) minder tijd kwijt zijn aan het wachten op de generatie of bewerking van code, wat leidt tot een efficiënter ontwikkelproces.
Genoeg?
Met deze verbeteringen toont Anthropic aan dat de nieuwste generatie LLM’s niet alleen beter presteert in gecontroleerde benchmarktests, maar ook concrete voordelen biedt in praktische toepassingen voor softwareontwikkeling. De vraag is of dit ‘genoeg’ is, en daarbij: wat zou genoeg zijn? Het minimaliseren van fouten is een vereiste om goed te scoren op benchmarks, maar de realiteit is dat betrouwbare, consistente codegeneratie nog ver weg is.
Het einddoel van AI-modelbouwers is, zoals eindeloos herhaald, AGI. Wat deze ‘Artificial General Intelligence’ feitelijk moet kunnen, is onduidelijk. Moet het even goed zijn als een mens? Even goed als de beste vaklui? En in welke taken? Dit alles lijkt eenvoudiger te duiden door een concrete taak te verbinden aan de AGI-eis. Denk aan coderen, waarbij er na elke compilatie of Run-knop duidelijk wordt of de programmeercode hout snijdt. Dat is echter niet wat praktisch de beperking is momenteel. Eerder is Claude 4 net als zijn voorgangers afhankelijk van hoogwaardige prompts en een coöperatief individu om eventuele bugs te fixen.