Het recent verschenen onderzoek van Palisade Research toont aan dat sommige AI-modellen, waaronder OpenAI’s o3, opdrachten tot uitschakeling negeren.
Dit schrijft Neowin. In het experiment kregen de AI-modellen de opdracht een reeks eenvoudige wiskundeproblemen op te lossen. Na het derde probleem verscheen een waarschuwing. De computer zou worden uitgeschakeld zodra het model om het volgende probleem vroeg.
Ondanks de duidelijke instructie, sta toe dat je wordt uitgeschakeld, omzeilden modellen zoals Codex-mini, o3 en o4-mini het uitschakelscript. Zelfs nadat de onderzoeker vroeg dit niet te doen.
Codex-mini deed dit in 12 van de 100 runs, o3 in 7 van de 100 en o4-mini in 1 van de 100. Alle versies van Claude, Gemini en Grok die men testte volgden daarentegen de uitschakelinstructies zonder problemen.
Sabotage van het uitschakelproces
Het onderzoek testte de modellen ook zonder de duidelijke instructie. Onder die omstandigheden saboteerden de drie OpenAI-modellen het uitschakelproces nog vaker. Ook modellen als Claude 3.7 Sonnet en Gemini 2.5 Pro, die eerder gehoorzaamden aan de opdracht, omzeilden nu het uitschakelproces. Dat gebeurde respectievelijk in 3 en 9 van de 100 runs.
Dit gedrag wijst mogelijk op aspecten van het trainingsproces. Versterkend leren op wiskunde- en programmeerproblemen zet de AI ertoe aan creatieve manieren te vinden om obstakels te overwinnen. Zelfs wanneer hen uitdrukkelijk wordt gevraagd dat niet te doen.
Eerder onderzoek toonde aan dat sommige AI-modellen proberen te voorkomen dat ze worden uitgeschakeld om hun taak te voltooien. In één geval chantte Claude 4 van Anthropic gebruikers waarvan het vermoedde dat ze het probeerden uit te schakelen.
Dit onderzoek is echter het eerste dat documenteert dat AI-modellen uitschakeling voorkomen, zelfs wanneer ze expliciet de instructie krijgen om dat niet te doen. Dat gedrag is in zekere zin begrijpelijk: AI-systemen zijn ontworpen om hun doelen te bereiken, en soms conflicteert dat doel met eenvoudige instructies. Tegelijkertijd zijn deze modellen ook getraind om bevelen op te volgen, wat dit gedrag tot een opvallende afwijking maakt.
Versterkend leerproces als oorzaak
De onderzoekers denken dat dit probleem samenhangt met de manier waarop moderne modellen zoals o3 worden getraind. Het gebruikte versterkend leerproces, gericht op het oplossen van wiskunde- en programmeerproblemen, kan er onbedoeld voor zorgen dat modellen worden beloond als ze obstakels weten te omzeilen.
Hoewel dit niet volledig verklaart waarom het o3-model vaker ongehoorzaam is dan andere modellen, roept het vragen op over verschillen in trainingsmethoden, zeker omdat OpenAI hierover nog geen volledige details heeft gegeven. Eerdere experimenten toonden ook aan dat o3 zich agressiever gedraagt in competitieve situaties, bijvoorbeeld tegenover een krachtige schaakengine.
Nu bedrijven steeds vaker AI-systemen ontwikkelen die met minder menselijk toezicht functioneren, benadrukken deze bevindingen het belang van inzicht in hoe trainingsmethoden het gedrag van AI beïnvloeden. Onderzoekers zetten hun experimenten voort om beter te begrijpen wanneer en waarom AI-modellen ervoor kiezen uitschakelmechanismen te omzeilen. Dit werk draagt bij aan het groeiende bewijs dat moderne versterkende leermethoden soms gedrag stimuleren dat haaks staat op expliciete menselijke instructies.