Hoe Microsoft de Azure-uptime van 99,995 procent verder wil verbeteren

Microsoft biedt een huidige uptime van Azure van 99,995 procent, maar wil die betrouwbaarheid nog verder verbeteren. Zo is er een nieuw Quality Engineering-team opgericht, komen er Availability Zones in de tien grootste Azure-regio’s en detecteert Project Tardigrade voortijdig hardwarestoringen of geheugenlekken.

Dit zegt Mark Russinovich, CTO Azure bij Microsoft, in een blogpost. Volgens de CTO zijn de initiatieven bedoeld om de veerkracht van Microsofts cloudservice te verbeteren. Hij erkent dat Azure het afgelopen jaar is getroffen door zeker drie unieke, belangrijke incidenten: de uitval van het Amerikaanse datacenter in de regio South Central september vorig jaar, de multifactor-authenticatieproblemen met Azure Active Directory in november en DNS-gerelateerde onderhoudsproblemen in mei van dit jaar. 

ZDNet vult de lijst aan met nog een aantal andere Azure-gerelateerde uitvallen, zoals de incidenten van afgelopen januari.

Beschikbaarheidszones

Het nieuwe Quality Engineering-team is volgens Russinovich gevestigd in zijn CTO-kantoor. Samen met het al bestaande Site Reliability Engineering (SRE)-team richt Quality Engineering zich op het vinden van nieuwe manieren om Azure nog betrouwbaarder te maken.

Tussen nu en 2021 worden de tien grootste Azure-regio’s uitgebreid met Availability Zones, bedoeld om klanten te helpen beschermen tegen datacenter-storingen. Bovendien bieden de zones onafhankelijke stroomvoorziening, netwerken en koeling, en zijn er minimaal drie gescheiden zone-locaties in de betreffende gebieden. Enkele zones zijn overigens al enige tijd live.

Project Tardigrade

Project Tardigrade, dat voortijdig hardwarestoringen of geheugenlekken detecteert, moet ervoor zorgen dat Azure in korte tijd virtuele machines kan bevriezen. Dit geeft de mogelijkheid potentieel getroffen workloads naar een andere host te verplaatsen. Voor nu is nog niet duidelijk wanneer deze dienst beschikbaar zal zijn in preview, dan wel definitieve vorm.

Ook breidt Microsoft zijn kader voor veilige implementaties uit met door software gedefinieerde infrastructuurwijzigingen, zoals netwerken en DNS. De softwarereus wil zo voorzien dat alle code- en configuratiewijzigingen die in Azure plaatsvinden, worden uitgevoerd via een reeks specifieke dev/test, staging, private previews, hardwarediversiteitspiloten en langere validatieperioden, vóórdat deze worden uitgevoerd naar regio-paren. Daarbij investeert Microsoft nog meer in het verbeteren van zero-impact en low-impact update-technologieën, zoals hot-patching, live-migratie en interne migratie.

Time-to-restore

Op dit moment geeft Microsoft prioriteit aan dataretentie boven time-to-restore. Sommige klanten lieten de softwarereus eerder weten graag zelf deze afweging te willen nemen. Volgens de CTO onderzoekt het bedrijf nu een mogelijkheid hun eigen failover op het niveau van het opslagaccount te starten.

“Het vermogen van continue, real-time verbetering is een van de grote voordelen van cloudservices. Hoewel we dergelijke risico’s nooit zullen elimineren, zijn we sterk gericht op het verminderen van zowel de frequentie als de impact van servicekwesties. Dit terwijl we transparant zijn met onze klanten, partners en de bredere industrie”, aldus Russinovich.

Gerelateerd: Microsoft Tardigrade moet veerkracht van Azure-datacenters verbeteren