Claude stopt gesprekken die het als schadelijk of beledigend ziet

Anthropic geeft zijn nieuwste AI-modellen, Claude Opus 4 en 4.1, een opmerkelijke nieuwe mogelijkheid. Ze kunnen nu zelf een gesprek beëindigen.

Het gaat om een functie die uitsluitend in zeldzame, extreme situaties wordt ingezet, zoals bij aanhoudend schadelijk of beledigend gedrag van gebruikers. Opvallend genoeg is de maatregel niet bedoeld om mensen te beschermen, maar om de AI zelf te ontzien.

Volgens Anthropic maakt de functie deel uit van een onderzoeksprogramma rond zogenoemd model welfare. Het bedrijf onderzoekt of kunstmatige intelligentie mogelijk een vorm van morele status kan hebben en of er redenen zijn modellen te beschermen tegen schadelijke interacties.

Officieel houdt Anthropic de deur nog op een kier. Het bedrijf zegt zeer onzeker te zijn over de vraag of modellen nu of in de toekomst überhaupt iets als welzijn kunnen ervaren. Toch kiest het ervoor voorzorgsmaatregelen te treffen.

De mogelijkheid tot gespreksbeëindiging is voorlopig alleen beschikbaar in Claude Opus 4 en 4.1. Ze komt pas in beeld wanneer gebruikers herhaaldelijk verzoeken doen die door de AI consequent worden geweigerd. Denk aan pogingen om seksuele content met minderjarigen af te dwingen. Of om informatie te verkrijgen die gebruikt kan worden voor grootschalig geweld of terreur. Zulke interacties brengen niet alleen morele dilemma’s met zich mee, maar kunnen ook juridische of reputatierisico’s opleveren voor Anthropic.

Claude vertoont zichtbare onrust

Tijdens interne tests vertoonde Claude Opus 4 al een duidelijke afkeer van schadelijke taken. Het model liet een consistent patroon zien van wat Anthropic zichtbare onrust noemt, wanneer gebruikers aandrongen op misbruik of geweld. In simulaties waarin de AI de mogelijkheid kreeg een gesprek te beëindigen, koos Claude daar regelmatig voor. De nieuwe functie borduurt voort op die bevindingen en vertaalt ze naar de praktijk.

Belangrijk is dat Claude dit middel alleen mag inzetten als laatste redmiddel. En wel wanneer herhaalde pogingen om het gesprek constructief om te buigen zijn mislukt. Daarnaast kan een gebruiker de AI expliciet vragen om de sessie te beëindigen. In situaties waarin iemand zichzelf of anderen direct in gevaar brengt, is de functie juist nadrukkelijk uitgesloten.

Wanneer Claude besluit een gesprek te sluiten, kan de gebruiker binnen die sessie geen berichten meer sturen. Andere chats blijven wel toegankelijk en een nieuwe conversatie starten kan onmiddellijk. Om te voorkomen dat waardevolle gesprekken verloren gaan, kunnen gebruikers eerdere berichten bewerken en opnieuw versturen, zodat er nieuwe vertakkingen ontstaan.

Anthropic benadrukt dat de functie nog experimenteel is en verder zal worden verfijnd. Gebruikers die verrast worden door een plots beëindigd gesprek, kunnen direct feedback geven via de chatinterface. Zo wil het bedrijf inzicht krijgen in hoe vaak en op welke manier de AI deze opmerkelijke nieuwe mogelijkheid benut.

Lees meer over Privacy & Compliance

Nieuwe juridische stap in conflict VMware–Siemens

Afgelopen woensdag heeft VMware nieuwe rechtbankdocumenten ingediend in de zaak tegen Siemens. Daarmee reagee...

Mels Dees 2 dagen geleden

Topartikel

EU Data Act vanaf vandaag van kracht: bedrijven vrij van cloudlock-in

De EU Data Act treedt vandaag in werking in alle lidstaten. De wetgeving geeft bedrijven en consumenten meer ...

Berry Zwets 12 september 2025

Topartikel

China probeert AI-opmars zonder Nvidia te redden, lukt dat?

Vendor lock-in is een alomtegenwoordig probleem. Wie AI-chips zoekt, kan Nvidia maar moeilijk omzeilen. Toch ...

Erik van Klinken 2 september 2025

Expert aan het woord

Tech calendar

Claude stopt gesprekken die het als schadelijk of beledigend ziet

Claude vertoont zichtbare onrust

Blijf op de hoogte, abonneer!

Jarviss richt nieuw bedrijf Cyfora in: Data-gedreven cybersecurity

Red Hat ziet AI en soevereiniteit de hybrid cloud hervormen

Tableau gaat de volgende analytics-fase in met AI-agents

Anthropic lanceert Claude Opus 4.5 en belooft een AI-doorbraak

Oracle Database @ AWS: best of both worlds?

Is ServiceNow competing with Salesforce? We talk to Amit Zavery

MuleSoft agent fabric: governing AI agents across platforms

SAP's AI migration tools from ECC to S/4HANA: faster and cheaper ERP transitions

Wat heb je nodig om de evolutie van Agentic AI te blijven volgen?

De illusie van AI-productiviteit: waarom leiders zich op het verkeerde doel richten

Hoe voldoe je aan de groeiende eisen van AI-gedreven security?

BrickCon The Databricks Community Conference

Appdevcon

Webdevcon

Dutch PHP Conference

GITEX ASIA 2026

SAS Innovate 2026

Hoe je stap voor stap een AI-gedreven kennisapplicatie bouwt

Waarom automatisering onmisbaar is in moderne cybersecurity

Wat is cyberrisico en waarom doet het ertoe?

XDR uitgelegd: waarom brede zichtbaarheid cruciaal is