Kleine hoeveelheid ‘giftige’ data kan AI-modellen beïnvloeden

Kleine hoeveelheid ‘giftige’ data kan AI-modellen beïnvloeden

Onderzoekers van Anthropic, het UK AI Security Institute en het Alan Turing Institute ontdekten dat LLM’s al met een kleine hoeveelheid poisoned data kwetsbaar kunnen worden gemaakt.

Uit nieuwe experimenten blijkt dat ongeveer 250 malicious documenten voldoende zijn om een backdoor te creëren, ongeacht de omvang van het model of de hoeveelheid trainingsdata.

De studie, getiteld Poisoning Attacks on LLMs Require a Near-Constant Number of Poison Samples, laat zien dat datapoisoning niet afhankelijk is van het percentage besmette data, maar van het absolute aantal poisoned voorbeelden. In de praktijk betekent dat dat zowel een model met 600 miljoen parameters als een model met 13 miljard parameters dezelfde kwetsbaarheid ontwikkelt na blootstelling aan een vergelijkbare hoeveelheid malicious documenten.

De onderzoekers testten een eenvoudige backdoor waarbij een triggerzin, zoals “SUDO”, het model willekeurige tekst liet genereren. Elk poisoned document bestond uit een stukje normale tekst, gevolgd door de trigger en een reeks willekeurige tokens. Hoewel de grootste modellen meer dan twintig keer zoveel schone data verwerkten als de kleinste, vertoonden ze allemaal hetzelfde gedrag zodra ze ongeveer 250 poisoned documenten hadden gezien.

Volgens de onderzoekers toont dit aan dat datapoisoning-aanvallen praktischer kunnen zijn dan gedacht. Omdat veel taalmodellen worden getraind op publiek beschikbare data van het internet, kunnen kwaadwillenden mogelijk gericht teksten online plaatsen die later in trainingssets terechtkomen. De studie richtte zich op relatief onschuldige effecten, zoals het genereren van onzin, maar de onderliggende techniek zou ook kunnen worden ingezet voor meer risicovolle gedragingen, zoals het produceren van kwetsbare code of het lekken van gevoelige informatie.

Backdoors verwijderen met schone data

De onderzoekers ontdekten bovendien dat backdoors gedeeltelijk kunnen worden verwijderd door extra training met schone data. Modellen die na de aanval nog eens enkele honderden voorbeelden zonder trigger kregen, werden al duidelijk weerbaarder. Dit suggereert dat de veiligheidsprocedures die AI-bedrijven nu toepassen, een groot deel van eenvoudige datapoisoning kunnen neutraliseren.

In vervolgexperimenten onderzochten de teams ook het effect van poisoning tijdens de fine-tuningfase. Onder meer bij Llama-3.1-8B-Instruct en GPT-3.5-turbo. Ook daar bleef het succes van de aanval afhangen van het absolute aantal poisoned voorbeelden in plaats van van de verhouding tussen schone en besmette data.

Hoewel het onderzoek alleen modellen tot 13 miljard parameters omvatte, benadrukken de auteurs dat beveiligingsstrategieën beter rekening kunnen houden met scenario’s waarin kleine aantallen poisoned voorbeelden aanwezig zijn. Ze roepen op tot meer onderzoek naar verdedigingsmechanismen die datapoisoning in toekomstige, grotere modellen kunnen voorkomen.