7 min Security

AI-hallucinaties: wat zijn het en hoe maken cybercriminelen er misbruik van?

AI-hallucinaties: wat zijn het en hoe maken cybercriminelen er misbruik van?

Cybercriminelen maken effectief gebruik van generatieve AI-tools – denk aan de toenemende linguïstische complexiteit van social engineering en phishing e-mails. Tegelijkertijd kunnen ze ook gebruikmaken van zwakke plekken in het Large Language Model (LLM) achter generatieve AI-tools in wat Adversarial Machine Learning wordt genoemd, oftewel het aanvallen van de modellen zelf. Een ander voorbeeld is het profiteren van pakkethallucinaties bij softwareontwikkeling, waarbij hallucinaties van LLM-uitvoer worden gebruikt om potentiële kwetsbaarheden uit te buiten. Maar wat zijn AI-hallucinaties precies? En welke veiligheidsrisico’s kunnen voortkomen uit AI-hallucinaties?

AI-tools openen de deur voor cybercriminelen

Op 30 november 2022 werd het gratis ‘conversational language’ generatieve AI-model ChatGPT gelanceerd door OpenAI, een onderzoeks- en ontwikkelingsbedrijf op het gebied van kunstmatige intelligentie (AI). De lancering van ChatGPT was het hoogtepunt van een ontwikkeling die al sinds 2018 gaande is en vertegenwoordigde de nieuwste innovatie in de opkomst van generatieve AI. Met deze lancering maakt OpenAI generatieve AI-tools voor het eerst toegankelijk voor iedereen. Dit heeft de manier waarop mensen omgaan met machine learning drastisch veranderd, namelijk door het beschikbaar te maken in hun natuurlijke taal.

Er wordt echter minder aandacht besteed aan de fouten die inherent zijn aan generatieve AI-tools en de mogelijke gevolgen die deze fouten kunnen hebben. Een van deze fouten is het fenomeen van AI-hallucinaties.

Wat is een AI-hallucinatie?

‘AI-hallucinatie’ is een term die verwijst naar de voorspellende elementen van generatieve AI: het Large Language Model (LLM) achter de AI geeft een onverwacht of feitelijk onjuist antwoord. Dit kan worden veroorzaakt door een aantal factoren: onvoldoende data-integriteit, problemen binnen de trainingsdataset, vertekeningen, onnauwkeurigheden veroorzaakt door aangeleerde waarschijnlijkheden in taal in plaats van data-analyse, complexiteit van het model, problemen op basis van prompts, onvoldoende testen of reinforcement learning, programmeerfouten of opzettelijke manipulatie. Dit is anders dan het normale en bedoelde gedrag van een AI-model, dat een antwoord zou moeten geven op basis van de gegevens waarop het getraind is.

Waarom zijn AI-hallucinaties een probleem?

Hoewel het op basis van de term lijkt dat het een zeldzaam fenomeen is, komen hallucinaties veel vaker voor dan gedacht. Dit komt doordat de AI-modellen die worden gebruikt in LLM’s alleen voorspellend zijn en zich richten op de meest waarschijnlijke tekst of uitkomst, in plaats van op feitelijke juistheid.

Gezien het wijdverbreide gebruik van generatieve AI-tools op de werkplek, is de kans aanzienlijk groter dat werknemers een AI-hallucinatie ervaren. Bovendien kunnen deze gefabriceerde hallucinatieresponsen aanzienlijke problemen veroorzaken voor een organisatie als ze worden toegepast zonder context, datasourcing, nabewerking, verificatie van gegevensintegriteit, enzovoort.

Generatieve AI gebruiken bij softwareontwikkeling

Maar ook bij softwareontwikkeling kunnen AI-hallucinaties tot problemen leiden. Softwareontwikkelaars kunnen generatieve AI gebruiken om aanbevelingen te krijgen voor het optimaliseren van hun scripts of code, of om pakketten te vinden die ze voor verschillende doeleinden in hun code kunnen importeren. Softwareontwikkelaars kunnen LLM’s ook om aanbevelingen vragen over specifieke stukken code of hoe ze een specifiek probleem moeten oplossen, wat waarschijnlijk zal leiden tot een pakket van een derde partij. Het is mogelijk dat pakketten die worden aanbevolen door generatieve AI-tools AI-hallucinaties zijn en dat de pakketten niet bestaan of niet zijn gepubliceerd voor de datum waarop de trainingsgegevens voor het model stoppen. Als deze hallucinaties resulteren in generieke suggesties van een niet-bestaand pakket en de ontwikkelaar het codefragment kopieert en op grote schaal uitwisselt, kan het kwetsbaar worden voor aanvallen.

Onderzoek uitgevoerd door Vulcan onthulde de invloed van AI-hallucinaties wanneer ChatGPT vragen krijgt met betrekking tot codering. Onderzoekers keken naar StackOverflow, een vraag-en-antwoord website voor programmeurs, om de meest gestelde ‘how to’ vragen op de site in verschillende programmeertalen te vinden. Vervolgens keken ze naar de code die ChatGPT gaf om die how to-vragen te beantwoorden en de ‘pakketten’ die in die code werden aanbevolen. Pakketten zijn als het ware vooraf geschreven delen van code die programmeurs importeren in plaats van dat ze alle functies die het pakket biedt vanaf nul schrijven. De onderzoekers ontdekten echter dat ChatGPT vaak pakketten aanraadde die niet bestonden. 20% van de antwoorden van ChatGPT met betrekking tot Node.js bevatte ten minste één niet-gepubliceerd pakket, terwijl dit cijfer voor Python rond 35% lag. Dit geeft cybercriminelen de kans om deze pakketten in hun voordeel te gebruiken door een nieuw pakket te maken met dezelfde naam als het pakket dat ChatGPT had voorgesteld en het te vullen met kwaadaardige code. Onwetende programmeurs kopiëren en plakken dan de code, inclusief de kwaadaardige code, in de app.

De beperkingen van LLM’s herkennen

Om dergelijke risico’s te beperken, is het belangrijk dat ontwikkelaars zich realiseren dat AI-hallucinaties bestaan en dat ze nooit blindelings reacties van generatieve AI-tools kopiëren zonder de inhoud zorgvuldig te controleren. In het geval van pakketten moeten ze controleren of de tool een echt bestaand pakket genereert of niet.

Het is ook belangrijk dat organisaties goed nadenken over de use case waarvoor ze bepaalde soorten AI gebruiken. Soms is het zinvoller om verschillende technieken te combineren. LLM’s hebben ook hun beperkingen. Je gebruikt LLM’s bijvoorbeeld niet om informatie over cyberdreigingen te verkrijgen of om verdacht gedrag te detecteren. Je kunt een LLM echter wel gebruiken om rapporten en presentaties te genereren op basis van al verkregen informatie over cyberdreigingen.

Hoe kan de nauwkeurigheid van LLM’s worden vergroot?

Erkennen dat LLM’s beperkingen hebben en ze gebruiken voor de juiste use cases is één ding, maar tegelijkertijd mogen organisaties van LLM-aanbieders verwachten dat ze hun verantwoordelijkheid nemen om de nauwkeurigheid van hun LLM’s te vergroten. Steeds meer aanbieders van LLM’s benchmarken de nauwkeurigheid van de antwoorden van hun modellen. Wereldwijd liggen de benchmarks voor zelfrapportage tussen de 50 en 85%, wat meteen laat zien dat er nog veel winst te behalen valt. LLM-aanbieders kunnen deze percentages verhogen door meer aandacht te besteden aan preprocessing en een robuust proces voor gegevensintegriteit. Denk aan het automatiseren van prompt engineering om vragen beter te kaderen, het optimaliseren van post-processing zoals data sourcing en retrieval augmented generation en het vergroten van de kans op accurate antwoorden. Overweeg ook het sourcen van datasets met nieuwe informatie waarop een LLM nog niet is getraind. Tegelijkertijd moet bevooroordeelde en schadelijke informatie voor de training worden verwijderd, wat ook te maken heeft met het feit dat LLM’s betere processen voor gegevensintegriteit moeten hebben om dit van tevoren te voorkomen. In ieder geval is het belangrijk dat aanbieders van LLM’s transparanter communiceren over de datasets waarop hun LLM’s zijn getraind. 

Iets wat ze in de toekomst kunnen overwegen is het weergeven van een vertrouwensscore in de classificatie, het antwoord, de score, enz. Gegevens met een vertrouwensscore zijn gemakkelijker te verwerken. Als de output van een LLM betrekking heeft op een onderwerp waarop de LLM is getraind en de vertrouwensscore 90% is, is die informatie gemakkelijker te operationaliseren dan de output van een onderwerp waarop de LLM niet is getraind en slechts een vertrouwensscore van 10% heeft. Het opwekken van vertrouwen is ongelooflijk moeilijk in LLM’s en erg rekenintensief.

LLM’s hebben hun beperkingen en tekortkomingen, zoveel is duidelijk. Het is belangrijk om dit te erkennen en niet blindelings te vertrouwen op de antwoorden die door LLM’s worden gegenereerd. Organisaties moeten hun werknemers bewust maken van de risico’s van het gebruik van generatieve AI door trainingen te geven en door beleidsregels op te stellen die beschrijven hoe generatieve AI op een zo veilig mogelijke manier kan worden gebruikt.

Dit is een ingezonden bijdrage van Darktrace. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.