Anthropic onthult auditagents om AI-misalignment op te sporen

Anthropic onthult auditagents om AI-misalignment op te sporen

Anthropic ontwikkelt AI-agents die zelfstandig alignment-audits uitvoeren op taalmodellen. Dit vergroot de schaalbaarheid en snelheid van veiligheidstoetsing aanzienlijk. Deze innovatie kan cruciaal blijken voor betrouwbare inzet van krachtige AI-systemen zoals Claude Opus 4.

Anthropic introduceert in een recente publicatie drie soorten AI-agents die geavanceerde taalmodellen kunnen onderzoeken op misaligned gedrag. En dat zonder menselijke tussenkomst. De auditing-agents zijn ontwikkeld om automatisch patronen, risico’s en verborgen doelen in AI-modellen op te sporen. Ze vormen volgens het bedrijf een cruciale stap in het opschalen van alignment-onderzoek.

De drie agents verschillen in aanpak. De zogenaamde investigator-agent voert open‑eindonderzoek uit op een model met behulp van interpretatie- en analysetools, in een poging om bijvoorbeeld onbedoelde of verborgen doelen van het model te achterhalen. De evaluation-agent voert gestructureerde gedragsevaluaties uit, waarbij het model getest wordt op consistentie en betrouwbaarheid in gevoelige situaties. De red‑teaming-agent richt zich op het genereren van prompts die specifiek zijn ontworpen om afwijkend of schadelijk gedrag uit te lokken.

In testomgevingen werd onder meer Claude Opus 4 onderworpen aan deze auditing-processen. De agents bleken in staat om effectief modellen te auditen die opzettelijk waren gemanipuleerd met misaligned instructies. Door verschillende agents samen te laten werken binnen een overkoepelende auditstructuur, bijvoorbeeld een super-agent die meerdere signalen integreert, wist Anthropic het detectievermogen aanzienlijk te verhogen. In bepaalde gevallen kon tot 42 procent van de verborgen gedragskenmerken worden blootgelegd.

Contextspecifieke afwijkingen zijn uitdaging

Tegelijkertijd benadrukt het onderzoek dat de agents nog niet in staat zijn om alle subtiele of moeilijk uit te lokken gedragingen te identificeren. Vooral complexe of contextspecifieke afwijkingen bleken lastig te detecteren. Daarom blijft menselijke validatie voorlopig noodzakelijk, met name bij de beoordeling van onvoorspelbare output of niet-reproduceerbare gedragsvormen.

Naast de technische realisatie van de agents ontwikkelde Anthropic ook een experimenteel raamwerk om hun effectiviteit te meten. In een paper beschrijven de onderzoekers hoe zij zogenaamde auditing games inzetten: gecontroleerde testomgevingen waarin modellen bewust worden voorzien van verborgen misaligned doelen. Vier onafhankelijke onderzoeksteams probeerden zonder voorkennis deze verborgen doelstellingen te identificeren. Drie van de vier slaagden hierin. Ze maakten gebruik van uiteenlopende methoden. Denk aan interpretatie van activaties, manipulatie van prompts en analyse van fine-tuning data.

Anthropic positioneert deze ontwikkeling als een stap naar meer betrouwbare governance van AI. Automatische audits zijn sneller, systematischer en minder afhankelijk van menselijke bias. Hoewel de agents nog niet volmaakt zijn, tonen de resultaten aan dat autonome auditing-technieken in combinatie met menselijke evaluatie een krachtig instrument kunnen vormen voor de veilige inzet van taalmodellen zoals Claude Opus 4.

Lees ook: Lang nadenken maakt AI-modellen dommer