Verschillende online diensten werden donderdagavond platgelegd, met een fout bij Google Cloud als oorzaak.
Door de storing werd Cloudflare uitgeschakeld, dat tevens leidde tot het offline gaan van onze eigen website. Prominente diensten die in verschillende mate werden geraakt, waren Google’s eigen diensten, Spotify, Discord en meer. Wie niet van Google en/of Cloudflare afhankelijk was, leek geen problemen te ervaren.
Wel problemen, geen problemen
Google communiceerde dat het problemen ondervond en dat er later een root cause-analyse zou volgen.
Een Cloudflare-woordvoerder benadrukt tegenover Techzine dat er geen sprake is van een Cloudflare-storing. In plaats daarvan meldt de CDN-leverancier dat dit een “Google Cloud-storing” is. “Een beperkt aantal diensten bij Cloudflare gebruikt Google Cloud en werden getroffen. De core-Cloudflare diensten werden niet getroffen.”
Wachten op antwoorden
De statuspagina van Google Cloud is op moment van schrijven (23:30) bezaaid met waarschuwingstekens, wijzend op aanhoudende problemen. Wel stelt Cloudflare dat de eigen diensten weer grotendeels zijn opgekrabbeld. Het feit dat u dit artikel kunt lezen, suggereert dat dit klopt.
De precieze oorzaak moet nog blijken, maar Google heeft een goede reputatie op dit gebied. Een langdurige storing in januari 2022 werd voorzien van een uitgebreide uitleg, die wellicht lijkt op wat we later vanuit Google zullen horen. Dat is echter speculatie.
Routine-onderhoud van een SDN-component leidde destijds namelijk tot een onverwachte fout binnen Google Cloud. Dit onderhoud leidde volgens Google tot een applicatie-failover, waarbij een nieuwe actieve replica vanuit een eerder checkpoint werd opgeroepen. Normaliter gaat dit frictieloos; de replica nam echter een kritiek stukje configuratie-informatie niet mee. Deze fout werd verspreid naar grofweg 15 procent van de netwerkswitches die de regio us-west1-b bedienen. Het herprogrammeren van de switches triggerde echter een race condition in de firmware, waarna ze crashten. Dit alles verliep automatisch, waardoor er handmatig herstel nodig was. Uiteindelijk lag Google Cloud er destijds grofweg 3,5 uur uit in de us-west1-b-regio.
Lees ook: Rapport biedt inzicht in grote impact CrowdStrike-storing