Azure downtime maakt van Availability Zones absolute prioriteit

Vorige week brak voor Microsoft de hel los met een foute Azure-update terwijl een datacenter in Texas was uitgevallen door hevig stormweer. Outlook- en Skype-gebruikers wereldwijd werden met een foutmelding begroet en Azure-klanten regio Texas (South Central US) konden bijna twee dagen lang niets doen.

Op 4 september hebben sommige Microsoft-medewerkers heel wat angstzweet moeten verwerken. Door een voltagepiek in een Amerikaans datacenter in San Antonio, Texas tijdens een hevige storm faalde de koeling. De hardware in het datacenter heeft tijdens zo’n situatie een extra veiligheid ingebouwd om zichzelf automatisch uit te schakelen, maar niet elke server was op tijd. Resultaat: een significante hoeveelheid hardware werd onherroepelijk beschadigd. Extra pech: een update tijdens de storm heeft ook Outlook en Skype grondig in de war gestuurd.

Lange downtime

De serverproblemen hebben ervoor gezorgd dat bedrijven vanaf 4 september 2u lokale tijd tot 5 september 17u geen beroep konden doen op hun Azure-diensten. Microsoft is de grote nummer twee na AWS in de public cloud-sector, met Google op plaats drie. Azure heeft heel snel wereldwijd servers voorzien voor klanten om lokaal te werken, maar heeft hierin ook fouten gemaakt.

Voordat het zijn eigen Availability Zones introduceerde, was het antwoord van Azure op de multi-zone strategie van de concurrenten een automatische SQL database back-up en opslagreplicatie. SQL-databases werden automatisch in een andere regio geback-upt alsook de data geassocieerd met hun Azure Storage-accounts. Visual Studio Team Services (VSTS) maakt zwaar gebruik van deze functie, maar ze garanderen geen naadloze failover.

Data synchroniseren over verschillende cloud regio’s, bijvoorbeeld South Central US en North Central US, is niet mogelijk voor VSTS. Er zit een latency van 70 milliseconden op, wat voor kritische diensten te lang duurt.

Concurrentie

Begin april schreven we dat Azure Availability Zones werden getest op drie locaties, waaronder Nederland (West Europe). Vandaag zijn er drie actief (Central US, France Central en West Europe) en zijn er twee in preview beschikbaar (East US 2 en Southeast Asia). Microsoft heeft een uitgebreide lijst gepubliceerd welke diensten worden ondersteunt in de Availability Zones.

De snelle expansie van Azure wereldwijd is goed voor de groei, maar availability zones zijn belangrijk om in buitengewone omstandigheden toch continuïteit te garanderen. DataCenter Knowledge schrijft dat AWS maar één regio (Osaka) heeft met één availability zone. Alle andere cloudregio’s hebben er drie, met een handvol twee zone-regio’s en een zes zone-regio (Northern Virginia).

Alle Google Cloud regio’s hebben drie availability zones met uitzondering van Iowa, dat er vier heeft. Microsoft heeft de concurrentie verslaan door wereldwijd datacenters te hebben, maar het moet nu werk maken om meer datacenters per regio te bouwen of bestaande datacenters anders reorganiseren om al zijn klanten multi-zone opties te geven.