Onderzoekers van Cloudflare hebben vastgesteld dat aanvallers steeds effectiever gebruikmaken van promptinjectie om AI-modellen te manipuleren. In een analyse van zeven modellen onderzocht het Cloudforce One-team hoe deze systemen redeneren en waar de zwakke plekken liggen.
De uitkomsten laten zien dat cybercriminelen met relatief eenvoudige middelen de besluitvorming van AI kunnen beïnvloeden, met name in beveiligingscontexten. Een belangrijk onderdeel van de bevindingen is het gebruik van zogeheten lokmiddelen: kleine tekstfragmenten die modellen moeten overtuigen dat bepaalde code veilig is.
Volgens het onderzoek kunnen deze fragmenten het beoordelingsvermogen van een AI-systeem subtiel sturen. Wanneer dergelijke opmerkingen minder dan één procent van een bestand beslaan, halveert de effectiviteit van detectie bijna. De modellen lijken deze signalen niet als verdacht te herkennen, maar laten zich er wel door beïnvloeden.
De onderzoekers beschrijven daarnaast een patroon waarbij de effectiviteit van misleiding niet lineair toeneemt. Een beperkte hoeveelheid manipulatieve tekst blijkt vaak succesvol, maar zodra de hoeveelheid sterk toeneemt, slaan modellen alarm.
Bij grote aantallen herhalende opmerkingen herkennen systemen het patroon als afwijkend gedrag en wordt de code vaker als schadelijk aangemerkt. Dit wijst erop dat AI-modellen gevoelig zijn voor zowel subtiele als overdreven vormen van beïnvloeding, maar elk op een andere manier verwerken.
Grote codebases bemoeilijken detectie
Een ander aandachtspunt is de rol van context. Niet de taal zelf, maar de manier waarop informatie wordt gepresenteerd blijkt doorslaggevend. Door schadelijke instructies te verbergen in omvangrijke softwarebundels, zoals veelgebruikte bibliotheken, wisten onderzoekers het detectieniveau drastisch te verlagen. In sommige gevallen daalde de herkenning van kwaadaardige code tot slechts twaalf procent, omdat het model zijn aandacht niet effectief over de volledige context kon verdelen.
Opvallend is ook dat de onderzochte modellen bepaalde vooroordelen vertonen. Zo werden opmerkingen in sommige talen sneller als verdacht bestempeld dan andere, los van de daadwerkelijke inhoud. Dit suggereert dat AI-systemen impliciete aannames ontwikkelen op basis van trainingsdata, wat kan leiden tot zowel valse positieven als gemiste dreigingen.
Volgens de onderzoekers benadrukt het rapport dat de beveiliging van AI-systemen niet alleen draait om het uitbreiden van functionaliteit of het verbeteren van detectiecapaciteiten, maar ook om het begrijpen en afbakenen van hoe modellen tot beslissingen komen. Zij plaatsen daarbij de kanttekening dat zelfs geavanceerde modellen kwetsbaar blijven voor manipulatie van hun redeneringsproces, zeker wanneer die manipulatie subtiel en contextueel wordt toegepast.