Anthropic heeft met een opvallend experiment laten zien hoe ver autonome AI-ontwikkeling inmiddels reikt. Zestien AI-agents bouwden vrijwel zelfstandig een C-compiler, maar de resultaten laten zowel technologische vooruitgang als duidelijke grenzen zien.
Het experiment vond plaats in een periode waarin meerdere AI-leveranciers inzetten op agentic systemen. Zowel Anthropic als OpenAI introduceerden onlangs nieuwe tooling voor multi-agentgebruik, waarmee de timing van de publicatie niet toevallig lijkt, aldus Ars Technica.
In het experiment kregen zestien AI-agents, allemaal draaiend op Claude Opus 4.6, de opdracht om vanaf nul een C-compiler te bouwen in Rust. Na het formuleren van het doel trok de menselijke begeleiding zich grotendeels terug. De agents werkten parallel aan een gedeelde Git-repository, zonder centrale orkestratie of aansturende hoofdagent.
Om dit mogelijk te maken ontwikkelde het bedrijf een eigen technische infrastructuur. Elke AI-agent draaide in een afzonderlijke Docker-container en werkte in een oneindige lus, waarbij na afronding van een taak automatisch een nieuwe sessie startte. Taken werden onderling gecoördineerd via eenvoudige lockbestanden in de repository, zodat agents elkaar niet direct in de weg liepen.
Tweeduizend Claude Code-sessies
Het project liep bijna twee weken en omvatte ongeveer tweeduizend Claude Code-sessies. Daarbij werden circa twee miljard inputtokens verwerkt en ongeveer 140 miljoen outputtokens gegenereerd, goed voor bijna twintigduizend dollar aan API-kosten. Het eindresultaat is een compiler van circa honderdduizend regels code.
Volgens Anthropic kan de compiler realistische software bouwen. Zo slaagde het systeem erin om een bootable Linux 6.9-kernel te compileren voor x86-, ARM- en RISC-V-architecturen. Ook projecten als PostgreSQL, SQLite, Redis, FFmpeg en QEMU werden succesvol gecompileerd. Op de GCC torture test suite behaalde de compiler een slagingspercentage van ongeveer 99 procent. Als informele eindtest kon de compiler zelfs het spel Doom compileren en uitvoeren.
Tegelijkertijd plaatst externe verslaggeving duidelijke kanttekeningen bij de mate van autonomie. Hoewel de AI-agents zelfstandig code schreven, vereiste het experiment aanzienlijke menselijke voorbereiding. Het grootste deel van het werk zat niet in het programmeren zelf, maar in het ontwerpen van testharnassen, CI-pijplijnen en feedbackmechanismen die waren afgestemd op de beperkingen van taalmodellen, aldus Ars Technica.
In dat kader benadrukt Anthropic dat de compiler is ontwikkeld zonder directe externe invloeden. De AI-agens hadden tijdens het ontwikkelproces geen internettoegang en gebruikten uitsluitend de Rust-standaardbibliotheek. Het bedrijf spreekt daarom van een clean-room implementatie.
Die kwalificatie roept echter discussie op. Hoewel de ontwikkelomgeving was afgeschermd, is het onderliggende taalmodel vooraf getraind op grote hoeveelheden publiek beschikbare broncode. Daarin zijn vrijwel zeker bestaande C-compilers, testsets en bijbehorende tooling vertegenwoordigd. Daarmee wijkt het gebruik van de term clean room af van de klassieke betekenis in softwareontwikkeling.
Die beperkingen werden vooral zichtbaar naarmate het project groeide. Toen de codebase de grens van ongeveer honderdduizend regels naderde, begonnen nieuwe bugfixes en uitbreidingen regelmatig bestaande functionaliteit te breken. Dat patroon, bekend uit grote menselijke codebases, bleek ook hier op te treden bij AI-agents die langdurig autonoom werken. Het experiment suggereert daarmee een praktische schaalgrens voor agentic softwareontwikkeling met de huidige generatie modellen.
De volledige broncode is publiek beschikbaar en Anthropic presenteert het project nadrukkelijk als onderzoek. Het experiment laat zien wat met huidige AI-agents mogelijk is, maar ook waar de praktische grenzen liggen van autonome softwareontwikkeling op grote schaal.