Het stof is enigszins neergedaald nadat een CrowdStrike Falcon-sensor de wereld lamlegde op vrijdag. Microsoft maakte de schade een dag later al op: het incident trof 8,5 miljoen Windows-systemen. Nu biedt ook CrowdStrike meer details. Een echte postmortem laat wel nog even op zich wachten.
Op vrijdag leidde een routine-update aan een CrowdStrike-sensor tot wereldwijde IT-chaos. Het betrof een “Channel File”, een configuratiebestand dat de beschermingsmechanismen van de CrowdStrike Falcon-sensor up-to-date houdt. Dergelijke tweaks zijn continu nodig om het razendsnel evoluerend gedrag van cybercriminelen te lijf te gaan. “Dit is geen nieuw proces”, laat CrowdStrike weten, en is al in gebruik sinds Falcon als antivirus-oplossing debuteerde in 2013.
Lees ook: Wereldwijde IT-storing door mislukte CrowdStrike-patch: wat ging er mis?
Geen cyberaanval, wel met dat effect
Bij elke communiqué herhaalt CrowdStrike dat het incident níét door een cyberaanval was ontstaan. Dat is geen gekke melding, want vele organisaties zullen eerst aan een hack hebben gedacht. Toen iedereen van KLM tot Infrabel (het Belgische equivalent van ProRail) platgelegd werd, had het een enorm effect op de bedrijfsvoering. Meer dan de helft van de Fortune 500 is CrowdStrike-klant, naast menig ziekenhuis, energieleverancier en bank.
Toch valt het aantal getroffen Windows-machines wel mee. Weliswaar liet de update servers, laptops én desktops uitvallen, maar onder de streep ging het om 8,5 miljoen apparaten. Minder dan één procent dus van alle Windows-systemen ter wereld. Maar: “hoewel het percentage klein was, weerspiegelen de brede economische en maatschappelijke gevolgen het gebruik van CrowdStrike door bedrijven die veel kritieke diensten draaien,” aldus Microsoft.
Eerder op Linux
Zelden kende een IT-storing een grotere impact. Het roept de vraag op hoe kwetsbaar de wereldwijde IT-infrastructuur is, nu blijkt dat een enkele foutieve update zowel het vliegverkeer als ziekenhuisafspraken en het bankenwezen grotendeels stil kan leggen.
Het specifieke CrowdStrike-probleem deed zich overigens al eerder voor bij Linux. In juni waarschuwde Red Hat bijvoorbeeld voor kernel panics (feitelijk de Linux-versie van een Blue Screen of Death) bij nieuwere versies van Red Hat Enterprise Linux door de Falcon-sensor. Ook daar moest CrowdStrike mitigatiestappen ter plekke implementeren. The Register ontdekte tevens situaties waarin CrowdStrike vermoedelijk voor vergelijkbare problemen zorgde bij Debian en Rocky Linux in april.
De uitrol van CrowdStrike-updates verloopt dus vaker niet vlekkeloos. Afgelopen vrijdag was de impact in ieder geval een stuk duidelijker dan bij eerdere securityincidenten, zeker bij het grote publiek.
Heldere communicatie
Microsoft biedt inmiddels een herstel-tool voor getroffen systemen. Het is goed om aan te stippen dat er vlak vóór de problematische CrowdStrike-update een grote storing plaatsvond die Microsoft 365 grotendeels offline trok, maar voor zover we weten zijn ze volledig ongerelateerd. Microsoft treft dus geen blaam, maar speelt een actieve rol in het oplossen van het probleem, mede omdat het een Windows-specifiek incident was. De Linux- en Mac-varianten van CrowdStrike hebben geen last gehad van problemen.
CrowdStrike’s aanvankelijke communicatie was verre van optimaal. Hoewel het bedrijf direct met klanten communiceerde, was er urenlang geen officiële berichtgeving of remediatie beschikbaar. Screenshots van e-mails op X of LinkedIn waren korte tijd de enige manieren waarop CrowdStrike-klanten te horen kregen hoe te handelen. Leidinggevenden van het bedrijf waren op dezelfde social media-platformen vrij communicatief, maar je kunt je ten zeerste afvragen of de officiële kanalen niet prioriteit hadden mogen krijgen. Het afschermen van kritieke informatie via een log-in-scherm is bijvoorbeeld een misstap.
Nu is de communicatie wel helder. Remediatiestappen zijn voor iedereen inzichtelijk in een blog en CrowdStrike deelt al enige technische details elders. Cruciaal is dat het kopje “Root Cause Analysis” vooralsnog een placeholder is. “We begrijpen hoe dit probleem zich heeft voorgedaan en we zijn bezig met een grondige analyse van de hoofdoorzaak om te bepalen hoe deze logische fout is ontstaan. Deze analyse zal worden voortgezet.” CrowdStrike belooft verdere details te zijner tijd te delen. We wachten er met smart op. Hopelijk is de trigger finger niet te rap, want niemand heeft iets aan technische blogs over interne euvel die later onjuist blijken te zijn.
UPDATE – Crowdstrike heeft een Youtube-video online gezet met daarin uitleg over hoe admins de BSOD-problemen handmatig kunnen oplossen:
Lees ook: Na wereldwijde CrowdStrike-storing starten systemen weer langzaam op