Wat kost een cloudstoring voor organisaties?

Wat kost een cloudstoring voor organisaties?

Kort nadat de belangrijkste AWS-regio uitviel, beleefde ook Microsoft Azure een wereldwijde storing. Door de downtime moesten bedrijven van alle soorten en maten hun werk neerleggen of leunen op alternatieven. Dat is niet gratis. Wat zijn de kosten voor organisaties die de public cloud hebben omarmd? En hoe druk je die kosten, als dat überhaupt kan?

Werkenden wereldwijd hebben steeds vaker last van cloudstoringen. Ze zijn praktisch onvermijdbaar. En omdat de IT-problemen zich in het datacenter van een ander bevinden, kunnen organisaties lang niet altijd inschatten wat de schade precies is en hoe lang de problemen aanhouden. Ook gebeuren ze om verschillende redenen. De AWS-regio US-EAST-1 werd gevloerd door een DNS-fout, Azure ging gisteravond offline door een CDN-probleem en twee jaar geleden leidde een brand in een Parijse locatie tot drie weken aan beperkte service voor Google Cloud-klanten.

Ze leiden allemaal grofweg tot hetzelfde probleem: downtime. Gedeeltelijke downtime komt vaker voor, waarbij bijvoorbeeld een enkele applicatie offline is. Ook talloze oorzaken voor te bedenken, maar wederom zijn ze overwegend voor de eindgebruiker niet van elkaar te onderscheiden. Het gaat ons echter om een drastischere impact. Je kunt dit volledige downtime noemen. Hierbij is een organisatie niet in staat de kerntaken uit te voeren. Van oudsher lag dit aan de eigen IT-infrastructuur of een externe factor zoals een natuurramp. Tegenwoordig is de cloudtransitie voor velen al een voldongen feit. Er staat geen ‘doosje’ meer in de kast, enkel pc’s als endpoints om clouddiensten te bereiken. Voor die partijen kan de schade groot zijn, zoals blijkt uit onderzoek.

Kosten lopen snel uit de hand

Splunk-onderzoekers spraken eind vorig jaar van de ‘verborgen kosten’ van downtime. Zo verborgen zijn die helemaal niet, wetende dat hun bevindingen in een lange traditie te plaatsen zijn van vergelijkbare onderzoeken. Hoe dan ook, de top 2000 bedrijven ter wereld betalen circa 400 miljard dollar voor downtime per jaar. Een eenvoudige rekensom onthult dat die organisaties, waaronder het Nederlandse ASML, Nationale Nederlanden, AkzoNobel, Philips en Randstad, zo’n 200 miljoen dollar van hun jaarrekening moeten inleveren aan ongeplande uitval. Wat overigens in het Splunk-onderzoek werkelijk verborgen kosten waren, was de financiële schade door problemen met securitytools, infrastructuur en appplicaties. Die kunnen miljarden van marktwaardes kunnen afsnoepen.

Die schatting van 200 miljoen dollar richt zich expliciet op de rijkste 2000 bedrijven ter wereld. De meeste organisaties kunnen soortgelijke schade niet betalen. Concrete voorbeelden bij monde van Atlassian zijn een 12 uur durende Apple Store-storing die 25 miljoen dollar kostte of Facebook dat 14 uur offline ging in 2019. Recenter was de CrowdStrike-storing, dat de top 500 bedrijven op aarde 5,4 miljard dollar kostte.

Voor een eerlijker beeld voor de gemiddelde organisatie moeten we elders aankloppen. Daarbij blijkt continu dat vendoren het onderzoek hebben verricht hiervoor. Dat betekent niet dat we de bevindingen in twijfel moeten trekken, maar wel dat we rekening moeten houden met een bepaald belang bij het noemen van de data. Neem New Relic, verkoper van een observability-platform. Organisaties zónder full-stack observability verliezen zo’n 2 miljoen dollar per uur aan een ‘high business impact’-storing. We storen ons aan het feit dat die business impact nooit gedefinieerd wordt (wanneer heeft uitval een ‘hoge’ impact?). Hoe dan ook betreft het simpelweg bedrijven die door New Relic zijn bevraagd; de belofte dat men die 2 miljoen kan halveren met full-stack observability kunnen we dus laten voor wat het is.

Een conservatievere schatting van downtime-kosten vinden we bij Information Technology Intelligence Consulting, dat onderzoek deed in opdracht van Calyptix Security. De ondervraagde partijen kenden overwegend meer dan 200 medewerkers, maar de combinatie was diverser dan de top 2000 bedrijven wereldwijd. De kosten voor downtime waren fors: minimaal 300.000 dollar per uur voor 90 procent van de bedrijven in kwestie. 41 procent stelde dat de IT-uitval tussen de 1 en 5 miljoen kostte.

Wat doe je ertegen?

Voor organisaties die de stap naar de cloud hebben gemaakt, staat een algemene public cloud-storing gelijk aan downtime zoals hierboven genoemd. Dan zijn de kosten dus voor vele bedrijven fors genoeg om een streep door je winst te zetten binnen luttele uren. Dit is ook al langer het geval en is zelfs voor kleine bedrijven een groot probleem. We kunnen echter onderzoeken blijven oprakelen, de cijfers variëren elke keer weer mede door methodologieën, het moment van onderzoek en de regio. Het punt blijft hetzelfde: de kosten stijgen meedogenloos snel. Wat doe je ertegen?

De grootste bedrijven kunnen in theorie leunen op een multicloud-strategie. Daarnaast vangen de hyperscalers veel lokale storingen op door verkeer te routen naar andere regio’s. Multicloud is alleen niet iets dat je als beginnende mkb’er zomaar optuigt. Ook bouw je je applicaties veelal niet in volledig redundante vorm in verschillende clouds. Daarnaast is het goed mogelijk dat je zelf nog verder kunt werken, maar dat je product onbereikbaar is. Zo gingen talloze sites offline door de AWS-storing en valt een groot deel van het internet uit als Cloudflare een probleem heeft.

Desondanks is het bewaren van de meest essentiële data op een andere locatie dan de public cloud van belang. Tevens kan een vermeende storing een uniek probleem zijn, mogelijk door een configuratiefout. Daarom is het contacteren van de public clouddienst een noodzakelijke stap bij problemen. Mocht je achteraf enorme financiële schade hebben geleden, dan kan het zo zijn dat je SLA (Service Level Agreement) je rechten geeft om geld terug te krijgen. Zo heeft AWS drie niveau’s van API gateway-dienstverlening, elk met een ander minimum voor de totale beschikbaarheid.

Toch ontsnap je als organisatie die de cloud omarmt niet zomaar aan de problemen. Downtime is een modern feit door de aard van de cloud. Dat hoeft niet eens aan de cloudleverancier te liggen of zelfs de klantorganisatie. Een partner of derde partij is soms ook de zwakke schakel, maar veelal met gedeeltelijke downtime. Een storing zoals bij CrowdStrike is de uitzondering. Een probleem bij AWS, Azure of Google Cloud is dat minder. Daarom moet je je er op voorbereiden, vooral financieel, maar ook mentaal. Zoniet, dan kan elk uur aan cloud-downtime je duur komen te staan.

Lees ook: Probleem in DNS-systeem veroorzaakte AWS-storing