Cloudflare geeft toe dat het zijn eigen logging-as-a-service-dienst beschadigde door een foutieve software-update. Dit resulteerde in het verlies van klantgegevens.
Dit schrijft The Register. Het netwerkbeheerbedrijf erkent in een bericht dat zijn Cloudflare Logs-service op 14 november gedurende ongeveer 3,5 uur geen verzamelde gegevens naar klanten stuurde. En dat ongeveer 55 procent van de logs verloren ging.
Cloudflare Logs verzamelt logbestanden die clouddiensten genereren en stuurt deze naar klanten die ze willen analyseren. Cloudflare suggereert dat deze logs nuttig kunnen zijn “voor foutopsporing, het identificeren van configuratie-aanpassingen en het maken van analyses, vooral in combinatie met logs van andere bronnen, zoals je applicatieserver.”
Cloudflare-klanten willen vaak logs van meerdere servers, en aangezien logbestanden uitgebreid en omvangrijk kunnen zijn, vreest de provider dat het verwerken van al deze gegevens overweldigend kan worden.
Onwerkbaar aantal transacties
“Stel je voor dat de postbode voor elke brief apart aan je deur belt, in plaats van voor een pakketje met meerdere brieven,” stelt Cloudflare in zijn bericht. “Met duizenden of miljoenen brieven per seconde zou het aantal transacties onwerkbaar worden.”
Daarom gebruikt Cloudflare een tool genaamd Logpush om logs te bundelen in voorspelbare pakketten, die vervolgens met een regelmatige frequentie naar klanten worden gestuurd. De logs die Cloudflare aan klanten levert, worden voorbereid door andere tools genaamd Logfwdr en Logreceiver.
Wijziging in Logpush
Op 14 november voerde Cloudflare een wijziging door in Logpush, bedoeld om een extra dataset te ondersteunen.
Het bleek een foutieve wijziging te zijn – het “informeerde Logfwdr in feite dat geen enkele klant logs had geconfigureerd om te worden doorgestuurd.” Cloudflare-medewerkers merkten het probleem op en draaiden de wijziging binnen vijf minuten terug.
Maar het incident activeerde een andere bug in Logfwdr, waardoor in situaties zoals de Logpush-fout alle loggebeurtenissen voor alle klanten in het systeem werden gestopt. Dit in plaats van alleen voor klanten die een Logpush-taak hadden ingesteld. De resulterende overvloed aan gegevens veroorzaakte de storing. En het verlies van sommige logbestanden.
Cloudflare heeft zichzelf terechtgewezen voor het incident. Het geeft toe dat het meeste werk om dit soort problemen te voorkomen al was gedaan. Maar niet volledig was afgerond. In zijn bericht vergelijkt het de situatie met het vergeten vast te maken van een autogordel. De veiligheidssystemen zijn aanwezig en werken. Maar ze zijn nutteloos als ze niet worden gebruikt.
Geautomatiseerde waarschuwingen
De netwerkgigant wil dit soort fouten in de toekomst vermijden. En wel met geautomatiseerde waarschuwingen. Dan zouden misconfiguraties “onmogelijk te missen” zijn. Dit zijn dappere woorden, stelt The Register. Het bedrijf plant ook extra tests om zich voor te bereiden op de impact van storingen in datacenters en/of netwerken en systeemoverbelasting.