Het exportverbod op Anthropics AI-modellen Fable 5 en Mythos 5 zou zijn ingegeven door een simpele prompt: ‘fix this code’. Securityonderzoeker Katie Moussouris las als enige externe expert het rapport en stelt dat er geen jailbreak plaatsvond. Meer dan honderd securityexperts dringen aan op intrekking van de maatregel.
De zogenaamde ‘jailbreak’ die de Amerikaanse regering aanzette tot een exportverbod op Anthropics krachtigste AI-modellen, was verrassend eenvoudig. Moussouris, CEO van Luta Security en een van de grondleggers van bug bounty-programma’s, zegt als enige externe expert het onderzoeksrapport te hebben gelezen dat aan het verbod ten grondslag ligt.
Vrijdag legde de Amerikaanse overheid een exportcontroleverordening op die buitenlandse toegang tot Fable 5 en Mythos 5 blokkeerde. Anthropic schakelde beide modellen vervolgens voor alle gebruikers volledig uit. Het zou via een identiteitscontrole toegang kunnen beperken tot alleen Amerikanen, maar is daar ofwel nog niet toe in staat of niet toe bereid.
Wat er werkelijk gebeurde
De voorganger van Claude Fable 5 en Mythos 5, te weten Mythos Preview, is al maanden door externe onderzoekers getest. Onlangs voerden enkele experts code met bekende CVE’s in de modellen in en vroegen om een beveiligingsreview. Fable 5 weigerde. Daarna vroegen ze het model simpelweg de code te ‘fixen’. Dat deed het wél, en na enkele vervolgstappen genereerde het ook testscripts. Moussouris stelt dat dit standaard defensief werk is. Het vinden, repareren en testen van kwetsbaarheden is precies wat beveiligingsprofessionals dagelijks doen. Defensieve AI-inzet slechter maken bij het opsporen van bugs en valideren van patches is dan ook contraproductief, aldus Moussouris.
Wassenaar en breed protest
Moussouris is geen onbekende in dit debat. Van 2013 tot 2017 nam ze deel aan de technische expertgroep die de Wassenaar Arrangement opnieuw onderhandelde, een vrijwillig akkoord tussen 42 landen over exportcontroles voor dual-use software. Deze afspraken waren oorspronkelijk in Wassenaar uitgewerkt en een halfjaar later getekend in Wenen. De ondertekenaars behaalden vrijstellingen voor defensieve cybersecurity, zodat onderzoekers internationaal kwetsbaarheidsinformatie kunnen uitwisselen zonder strafrechtelijk risico.
Nu sloot ze zich aan bij meer dan honderd cybersecurityleiders die Washington in een open brief vroegen de beperkingen terug te draaien. Intussen bereidt Anthropic identiteitsverificatie voor gebruikers voor, vermoedelijk om de exportcontroles naleefbaar te maken. Moussouris waarschuwt dat het verbod verdedigers meer schaadt dan aanvallers. Open-weight modellen en Chinese alternatieven vallen immers buiten de reikwijdte van diezelfde exportcontroles.