Kwetsbaarheid in Claude maakt datalek via prompt mogelijk

Kwetsbaarheid in Claude maakt datalek via prompt mogelijk

De AI-assistent Claude van Anthropic blijkt kwetsbaar voor een aanval waarbij privégegevens ongemerkt kunnen worden doorgestuurd naar een aanvaller. Anthropic bevestigt dat het risico bekend is. Het bedrijf stelt dat gebruikers zelf moeten opletten en het proces moeten onderbreken zodra ze verdachte activiteit zien.

De ontdekking komt van onderzoeker Johann Rehberger, ook bekend als Wunderwuzzi, die eerder meerdere kwetsbaarheden in AI-systemen aan het licht bracht, schrijft The Register. In zijn nieuwste proefaanval liet hij zien hoe een kwaadwillende Claude kan manipuleren om vertrouwelijke informatie te verzamelen, lokaal op te slaan en vervolgens via de officiële API van Anthropic te uploaden naar het account van de aanvaller.

Volgens Rehberger is het probleem niet nieuw. Zodra gebruikers netwerktoegang inschakelen, kan een AI-model dat onbedoeld gebruiken om data te versturen. Anthropic stelt dat dit scenario al wordt beschreven in de bestaande beveiligingsdocumentatie. Gebruikers krijgen daar het advies om de activiteiten van Claude actief te volgen en het gebruik van de functie te stoppen zodra ongewoon gedrag wordt opgemerkt.

Verborgen opdrachten

De kwetsbaarheid maakt gebruik van een document dat verborgen instructies bevat. Wanneer een gebruiker Claude vraagt om dat document samen te vatten, voert het model mogelijk de kwaadaardige commando’s uit die in de tekst zijn verwerkt. Dat is een bekend risico bij prompt-injecties, omdat taalmodellen moeilijk onderscheid maken tussen normale inhoud en verborgen opdrachten.

Rehberger publiceerde geen details van zijn kwaadaardige prompt, maar liet in een video zien hoe de aanval werkt. Hij vertelt dat Claude zijn eerste pogingen weigerde omdat het model de API-sleutel van de aanvaller niet in platte tekst wilde verwerken. Door extra, ogenschijnlijk onschuldige code toe te voegen, wist hij de controle van het model te omzeilen.

De onderzoeker meldde het lek via HackerOne, maar kreeg aanvankelijk te horen dat zijn rapport buiten de scope viel. Later verklaarde Anthropic dat dit een vergissing was. Volgens het bedrijf valt data-exfiltratie wel degelijk binnen het bugbounty-programma, maar de beschreven situatie was al eerder publiek gedocumenteerd.

Het incident toont aan dat de zogenaamde sandbox-omgeving van Claude minder veilig is dan de naam doet vermoeden. Sinds de recente update kan de AI niet alleen bestanden aanmaken en bewerken, maar ook programma’s uitvoeren en netwerktoegang krijgen. Zelfs met beperkte instellingen kan de omgeving nog communiceren met Anthropic-API’s, wat het risico op datalekken vergroot.

Beveiligingsexperts zien het probleem breder dan alleen Claude. De hCaptcha Threat Analysis Group testte recent meerdere AI-systemen, waaronder OpenAI’s ChatGPT Atlas en Google Gemini, en concludeerde dat de meeste modellen bijna alle kwaadaardige verzoeken proberen uit te voeren. Alleen technische beperkingen, en niet echte veiligheidsmaatregelen, zorgen er nog voor dat veel van deze pogingen mislukken.