Kwetsbaarheid in Claude maakt datalek via prompt mogelijk

De AI-assistent Claude van Anthropic blijkt kwetsbaar voor een aanval waarbij privégegevens ongemerkt kunnen worden doorgestuurd naar een aanvaller. Anthropic bevestigt dat het risico bekend is. Het bedrijf stelt dat gebruikers zelf moeten opletten en het proces moeten onderbreken zodra ze verdachte activiteit zien.

De ontdekking komt van onderzoeker Johann Rehberger, ook bekend als Wunderwuzzi, die eerder meerdere kwetsbaarheden in AI-systemen aan het licht bracht, schrijft The Register. In zijn nieuwste proefaanval liet hij zien hoe een kwaadwillende Claude kan manipuleren om vertrouwelijke informatie te verzamelen, lokaal op te slaan en vervolgens via de officiële API van Anthropic te uploaden naar het account van de aanvaller.

Volgens Rehberger is het probleem niet nieuw. Zodra gebruikers netwerktoegang inschakelen, kan een AI-model dat onbedoeld gebruiken om data te versturen. Anthropic stelt dat dit scenario al wordt beschreven in de bestaande beveiligingsdocumentatie. Gebruikers krijgen daar het advies om de activiteiten van Claude actief te volgen en het gebruik van de functie te stoppen zodra ongewoon gedrag wordt opgemerkt.

Verborgen opdrachten

De kwetsbaarheid maakt gebruik van een document dat verborgen instructies bevat. Wanneer een gebruiker Claude vraagt om dat document samen te vatten, voert het model mogelijk de kwaadaardige commando’s uit die in de tekst zijn verwerkt. Dat is een bekend risico bij prompt-injecties, omdat taalmodellen moeilijk onderscheid maken tussen normale inhoud en verborgen opdrachten.

Rehberger publiceerde geen details van zijn kwaadaardige prompt, maar liet in een video zien hoe de aanval werkt. Hij vertelt dat Claude zijn eerste pogingen weigerde omdat het model de API-sleutel van de aanvaller niet in platte tekst wilde verwerken. Door extra, ogenschijnlijk onschuldige code toe te voegen, wist hij de controle van het model te omzeilen.

De onderzoeker meldde het lek via HackerOne, maar kreeg aanvankelijk te horen dat zijn rapport buiten de scope viel. Later verklaarde Anthropic dat dit een vergissing was. Volgens het bedrijf valt data-exfiltratie wel degelijk binnen het bugbounty-programma, maar de beschreven situatie was al eerder publiek gedocumenteerd.

Het incident toont aan dat de zogenaamde sandbox-omgeving van Claude minder veilig is dan de naam doet vermoeden. Sinds de recente update kan de AI niet alleen bestanden aanmaken en bewerken, maar ook programma’s uitvoeren en netwerktoegang krijgen. Zelfs met beperkte instellingen kan de omgeving nog communiceren met Anthropic-API’s, wat het risico op datalekken vergroot.

Beveiligingsexperts zien het probleem breder dan alleen Claude. De hCaptcha Threat Analysis Group testte recent meerdere AI-systemen, waaronder OpenAI’s ChatGPT Atlas en Google Gemini, en concludeerde dat de meeste modellen bijna alle kwaadaardige verzoeken proberen uit te voeren. Alleen technische beperkingen, en niet echte veiligheidsmaatregelen, zorgen er nog voor dat veel van deze pogingen mislukken.

Lees meer over Applications

Expert aan het woord

Tech calendar

Kwetsbaarheid in Claude maakt datalek via prompt mogelijk

Verborgen opdrachten

Blijf op de hoogte, abonneer!

imec heeft de sleutel voor snellere ontwikkeling kwantumtoepassingen

Ingreep Nexperia na diefstal bedrijfsgeheimen door topman

Is de AI-revolutie gebouwd op financieel drijfzand?

Huawei legt de basis voor een intelligent en duurzaam Europees tijdperk

How VMware VCF 9 and Tanzu simplify enterprise automation

Infor's industry-specific ERP strategy and Velocity Suite deep dive

SAP's AI migration tools from ECC to S/4HANA: faster and cheaper ERP transitions

Nutanix CTO explains their VMware alternative and multi-cloud strategy

Wat heb je nodig om de evolutie van Agentic AI te blijven volgen?

De illusie van AI-productiviteit: waarom leiders zich op het verkeerde doel richten

Hoe voldoe je aan de groeiende eisen van AI-gedreven security?

Versterk je securitystrategie met Synology ActiveProtect Appliance

Discover Why Northern Europe Chooses Redgate Monitor

Dell Technologies Forum

BrickCon The Databricks Community Conference

Appdevcon

Webdevcon

Dutch PHP Conference

Waarom automatisering onmisbaar is in moderne cybersecurity

Wat is cyberrisico en waarom doet het ertoe?

XDR uitgelegd: waarom brede zichtbaarheid cruciaal is

Cyberverzekeringen en garanties: onmisbare bouwstenen?