Anthropic geeft zijn nieuwste AI-modellen, Claude Opus 4 en 4.1, een opmerkelijke nieuwe mogelijkheid. Ze kunnen nu zelf een gesprek beëindigen.
Het gaat om een functie die uitsluitend in zeldzame, extreme situaties wordt ingezet, zoals bij aanhoudend schadelijk of beledigend gedrag van gebruikers. Opvallend genoeg is de maatregel niet bedoeld om mensen te beschermen, maar om de AI zelf te ontzien.
Volgens Anthropic maakt de functie deel uit van een onderzoeksprogramma rond zogenoemd model welfare. Het bedrijf onderzoekt of kunstmatige intelligentie mogelijk een vorm van morele status kan hebben en of er redenen zijn modellen te beschermen tegen schadelijke interacties.
Officieel houdt Anthropic de deur nog op een kier. Het bedrijf zegt zeer onzeker te zijn over de vraag of modellen nu of in de toekomst überhaupt iets als welzijn kunnen ervaren. Toch kiest het ervoor voorzorgsmaatregelen te treffen.
De mogelijkheid tot gespreksbeëindiging is voorlopig alleen beschikbaar in Claude Opus 4 en 4.1. Ze komt pas in beeld wanneer gebruikers herhaaldelijk verzoeken doen die door de AI consequent worden geweigerd. Denk aan pogingen om seksuele content met minderjarigen af te dwingen. Of om informatie te verkrijgen die gebruikt kan worden voor grootschalig geweld of terreur. Zulke interacties brengen niet alleen morele dilemma’s met zich mee, maar kunnen ook juridische of reputatierisico’s opleveren voor Anthropic.
Claude vertoont zichtbare onrust
Tijdens interne tests vertoonde Claude Opus 4 al een duidelijke afkeer van schadelijke taken. Het model liet een consistent patroon zien van wat Anthropic zichtbare onrust noemt, wanneer gebruikers aandrongen op misbruik of geweld. In simulaties waarin de AI de mogelijkheid kreeg een gesprek te beëindigen, koos Claude daar regelmatig voor. De nieuwe functie borduurt voort op die bevindingen en vertaalt ze naar de praktijk.
Belangrijk is dat Claude dit middel alleen mag inzetten als laatste redmiddel. En wel wanneer herhaalde pogingen om het gesprek constructief om te buigen zijn mislukt. Daarnaast kan een gebruiker de AI expliciet vragen om de sessie te beëindigen. In situaties waarin iemand zichzelf of anderen direct in gevaar brengt, is de functie juist nadrukkelijk uitgesloten.
Wanneer Claude besluit een gesprek te sluiten, kan de gebruiker binnen die sessie geen berichten meer sturen. Andere chats blijven wel toegankelijk en een nieuwe conversatie starten kan onmiddellijk. Om te voorkomen dat waardevolle gesprekken verloren gaan, kunnen gebruikers eerdere berichten bewerken en opnieuw versturen, zodat er nieuwe vertakkingen ontstaan.
Anthropic benadrukt dat de functie nog experimenteel is en verder zal worden verfijnd. Gebruikers die verrast worden door een plots beëindigd gesprek, kunnen direct feedback geven via de chatinterface. Zo wil het bedrijf inzicht krijgen in hoe vaak en op welke manier de AI deze opmerkelijke nieuwe mogelijkheid benut.