Google onthult oorzaak voor grote cloudstoring

Google heeft meer details gedeeld over de storing die afgelopen zondag een deel van zijn cloudinfrastructuur offline haalde. Verschillende Google-diensten en populaire apps van externe partijen, zoals Snapchat, ondervonden urenlang hinder.

“De oorzaak van de storing op zondag was een configuratiewijziging die bedoeld was voor een klein aantal servers in een enkele regio”, schrijft Benjamin Treynor Sloss in een blogpost. Hij is verantwoordelijk voor het in de lucht houden van Googles diensten.

De configuratie werd volgens Sloss onjuist toegepast op een groter aantal servers in verschillende naburige regio’s. Dat zorgde ervoor dat die regio’s niet langer meer dan de helft van hun beschikbare netwerkcapaciteit gebruikten.

“Het netwerkverkeer naar/van die regio’s probeerde toen in te passen in de resterende netwerkcapaciteit, maar dat lukte niet”, gaat Sloss verder. Het netwerk raakte overbelast waardoor het systeem groter, minder latency-gevoelig verkeer liet vallen, om kleiner latency-gevoelig verkeer in stand te kunnen houden.

Impact

De impact was daardoor vooral voelbaar voor diensten die een hoge bandbreedte nodig hebben, zoals YouTube. Diensten die maar een lage bandbreedte gebruiken, zoals Google Search, ondervonden hooguit een korte toename in latency.

YouTube noteerde een trafiekdaling van 2,5 procent gedurende één uur, terwijl Google Cloud Storage 30 procent minder verkeer kon verwerken. Ongeveer 1 procent van de actieve Gmail-gebruikers had problemen met hun account, wat nog altijd neerkomt op miljoenen gebruikers.

“Voor de meeste Google-gebruikers was er weinig of geen zichtbare verandering in hun services”, benadrukt Sloss. “Voor gebruikers die afhankelijk zijn van diensten in de getroffen regio’s, was de impact echter aanzienlijk.” Volgens de statuspagina van Google Cloud situeerden de problemen zich met name in de regio ‘eastern USA’.

Hoewel de techniekers van Google het probleem binnen enkele seconden hadden vastgesteld, duurde het herstel veel langer dan Googles target van enkele minuten. “Dezelfde netwerkcongestie die tot de degradatie van de service leidde, vertraagde ook het vermogen van de technische teams om de juiste configuraties te herstellen, waardoor de storing werd verlengd”, verklaart Sloss.