Cloudflare: Aanvallers misleiden AI-modellen met promptinjectie

Onderzoekers van Cloudflare hebben vastgesteld dat aanvallers steeds effectiever gebruikmaken van promptinjectie om AI-modellen te manipuleren. In een analyse van zeven modellen onderzocht het Cloudforce One-team hoe deze systemen redeneren en waar de zwakke plekken liggen.

De uitkomsten laten zien dat cybercriminelen met relatief eenvoudige middelen de besluitvorming van AI kunnen beïnvloeden, met name in beveiligingscontexten. Een belangrijk onderdeel van de bevindingen is het gebruik van zogeheten lokmiddelen: kleine tekstfragmenten die modellen moeten overtuigen dat bepaalde code veilig is.

Volgens het onderzoek kunnen deze fragmenten het beoordelingsvermogen van een AI-systeem subtiel sturen. Wanneer dergelijke opmerkingen minder dan één procent van een bestand beslaan, halveert de effectiviteit van detectie bijna. De modellen lijken deze signalen niet als verdacht te herkennen, maar laten zich er wel door beïnvloeden.

De onderzoekers beschrijven daarnaast een patroon waarbij de effectiviteit van misleiding niet lineair toeneemt. Een beperkte hoeveelheid manipulatieve tekst blijkt vaak succesvol, maar zodra de hoeveelheid sterk toeneemt, slaan modellen alarm.

Bij grote aantallen herhalende opmerkingen herkennen systemen het patroon als afwijkend gedrag en wordt de code vaker als schadelijk aangemerkt. Dit wijst erop dat AI-modellen gevoelig zijn voor zowel subtiele als overdreven vormen van beïnvloeding, maar elk op een andere manier verwerken.

Grote codebases bemoeilijken detectie

Een ander aandachtspunt is de rol van context. Niet de taal zelf, maar de manier waarop informatie wordt gepresenteerd blijkt doorslaggevend. Door schadelijke instructies te verbergen in omvangrijke softwarebundels, zoals veelgebruikte bibliotheken, wisten onderzoekers het detectieniveau drastisch te verlagen. In sommige gevallen daalde de herkenning van kwaadaardige code tot slechts twaalf procent, omdat het model zijn aandacht niet effectief over de volledige context kon verdelen.

Opvallend is ook dat de onderzochte modellen bepaalde vooroordelen vertonen. Zo werden opmerkingen in sommige talen sneller als verdacht bestempeld dan andere, los van de daadwerkelijke inhoud. Dit suggereert dat AI-systemen impliciete aannames ontwikkelen op basis van trainingsdata, wat kan leiden tot zowel valse positieven als gemiste dreigingen.

Volgens de onderzoekers benadrukt het rapport dat de beveiliging van AI-systemen niet alleen draait om het uitbreiden van functionaliteit of het verbeteren van detectiecapaciteiten, maar ook om het begrijpen en afbakenen van hoe modellen tot beslissingen komen. Zij plaatsen daarbij de kanttekening dat zelfs geavanceerde modellen kwetsbaar blijven voor manipulatie van hun redeneringsproces, zeker wanneer die manipulatie subtiel en contextueel wordt toegepast.

Lees meer over Security

Expert aan het woord

Tech calendar

Cloudflare: Aanvallers misleiden AI-modellen met promptinjectie

Grote codebases bemoeilijken detectie

Blijf op de hoogte, abonneer!

SAP slaat data- en AI-dubbelslag met overnames Prior Labs en Dremio

Datacenters in containers omzeilen vele valkuilen voor de AI-uitbouw

SAS Viya knoopt data-infrastructuur en agentic AI steviger aan elkaar

“MCP is gewoon een API”, en dat is precies het probleem van Gemini Enterprise

groundcover uses EBPF and AI agents to modernize observability

Inside AIDA Cruises' massive floating data centers

Why only 25% of teams are ready for the Cyber Resilience Act

How to migrate from Redis to Valkey with zero downtime

mnemonic opent Nederlands Security Operations Centre en verhuist naar nieuw kantoor in Utrecht

Hoe slimme, secure en simpele vergadertechnologie het verschil kan maken op de hybride werkplek

API’s zijn de ruggengraat van onze digitale economie

Van huddle tot boardroom: hoe ClickShare vergaderen herdefinieert

Team '26

Knowledge 26

Red Hat Summit

DevOpsCon London

Digitale soevereiniteit in de boardroom

Infosecurity Europe

Hoe je stap voor stap een AI-gedreven kennisapplicatie bouwt

Waarom automatisering onmisbaar is in moderne cybersecurity

Wat is cyberrisico en waarom doet het ertoe?

XDR uitgelegd: waarom brede zichtbaarheid cruciaal is