Splunk levert inzichten en antwoorden op basis van alle soorten data

Techzine was onlangs aanwezig bij SplunkLive! in Utrecht, een evenement voor alle Splunk-klanten en -partners om meer te weten te komen over de producten en nieuwste features. Wij waren daar vooral te gast om het bedrijf beter te leren kennen. Want wat doet databedrijf Splunk nu precies?

Aanvankelijk begon Splunk aan de IT-operations kant, waar het vooral log files van servers en endpoints inzichtelijk maakte door ze allemaal samen te brengen op een gecentraliseerde locatie. Daar waren de log files dan doorzoek- en analyseerbaar. Dit is handig aangezien je anders per server of per endpoint elke schakel in de keten af moet om een probleem te achterhalen en op te lossen.

In de basis indexeert Splunk dus log files of regels met tekstuele data. Daarvoor heeft het een regel tekst en een timestamp nodig. Vervolgens slaat Splunk deze in een database op, waarna het doorzoekbaar is op vele verschillende manieren. Daarbij kan het alle vormen van log files of events verwerken, zolang het maar leesbare tekst is. Het kan niet overweg met binaire bestanden, oftewel de inhoud van een PDF- of Word-document is niet te indexeren.

Splunk kent de formaten van veel log files

Bij het indexeren van data heeft Splunk zoals gezegd een logregel en een timestamp nodig. Op basis daarvan wordt de logregel weggeschreven. Timestamp is daarin een hele belangrijke factor om na te gaan waar iets mis is gegaan. Daarnaast kan Splunk vele verschillende soorten log files herkennen en kan de gebruiker ook aangeven om wat voor soort log het gaat. Binnen zo’n logregel kan Splunk dan automatisch zaken herkennen. In het geval van bijvoorbeeld een webserverlog kan onder meer het url-path, het sessie-ID, de statuscode, IP-adres, taal, browser, besturingssysteem en referrer herkend worden. Doordat Splunk dit soort zaken kan herkennen, kan het hier ook vrij snel analytics op toepassen.

Om toch even bij de webserver logs te blijven. Een goed voorbeeld is het hele afrekentraject van een webshop in kaart brengen en zien waar mensen precies afhaken. Vervolgens kan ook worden gedetecteerd of er bij het afhaken sprake is van een goed afgeleverde webpagina (statuscode 200) of dat er een fout is opgetreden (statuscode 503). Op die manier kan worden bepaald of er technisch iets misgaat bij het afrekenen, of dat de afrekenpagina’s zo slecht zijn vormgegeven dat mensen hun aankoop laten zitten.

Als er sprake is van een technisch probleem, dan kan dat verschillende oorzaken hebben. De webserver kan problemen geven, maar ook een databaseserver of wellicht een externe module die bijvoorbeeld postcodes omzet in adressen. Door alle verschillende logs samen te brengen in Splunk en die trajecten op basis van het tijdstip te analyseren kan bijvoorbeeld worden gedetecteerd dat de server die deze postcodes en adressen moet omzetten, niet beschikbaar was en een fout veroorzaakte. Of wellicht was de databaseserver enorm overbelast. Daarom is die timestamp zo belangrijk.

 

Splunk is niet nieuw, wel in opkomst

Inmiddels is Splunk een bedrijf van formaat met een omzet van rond de 1,5 miljard dollar. Het bedrijf bestaat al sinds 2003, maar wordt de afgelopen jaren steeds populairder. Voornamelijk omdat Splunk naast IT-operations en security steeds breder inzetbaar is. Bedrijven kunnen eigenlijk voor vrijwel alle vormen van analytics gewoon Splunk inzetten. Je moet alleen af en toe even out of the box denken hoe je dat het beste kan toepassen.

We begrepen dat op het SplunkLive!-event in Florida na de zomer zo’n 8000 mensen aanwezig waren. Twee keer zoveel dan het jaar ervoor. En in Utrecht waren er ook nog zo’n 400 aanwezigen. Dat laat zien dat de mogelijkheden van Splunk bij steeds meer bedrijven beginnen te leven en het merk in opkomst is.

Van zoeken naar dashboards

Splunk heeft zijn eigen soort programmeertaal. Hiermee is het mogelijk om commando’s samen te stellen die alle beschikbare data in Splunk doorzoeken. Er kan dus niet alleen op een keyword worden gezocht, maar ook op elementen uit logs die door Splunk zijn herkend. Bijvoorbeeld de eerdergenoemde variabelen als statuscode, ip-adres, url en dergelijke.

Dit soort zoekopdrachten kunnen naar wens ook weer worden gekoppeld aan datasets met extra informatie. Het is bijvoorbeeld mogelijk om een CSV-bestand te importeren met alle productcodes, namen en prijzen. Als vervolgens middels een zoekopdracht kan worden bepaald welke productcodes succesvol zijn besteld door mensen, is het ook mogelijk om te berekenen hoe hoog de omzet is in een bepaalde periode.

Dit soort zoekopdrachten wil je natuurlijk niet elke dag opnieuw invoeren en inzichtelijk maken. Daarom heeft Splunk een dashboardfunctie ontwikkeld. Na het doen van een zoekopdracht kan je via enkele tabbladen en opties de opmaak van de uitkomst aanpassen. Zo kan je lijn- of kolomgrafieken maken, of juist de uitkomst bij elkaar optellen als een groot getal (de totale omzet bijvoorbeeld). Zodra je een grafiek, tabel of getal hebt opgemaakt kan je deze vervolgens opslaan op een dashboard, zodat je een volgende keer niet de zoekopdracht hoeft te herhalen maar simpelweg het juiste dashboard kan openen waarop diverse elementen zijn te vinden met analyses.

Alle soorten data analyseren, van de Belastingdienst tot Irdeto

We kunnen niet vaak genoeg benadrukken hoeveel verschillende soorten data je kan analyseren met Splunk. Hoewel het bedrijf is begonnen in de IT-operations en zich daarna in de richting van de securitymarkt ontwikkelde als een Security Information and Event Management (SIEM)-oplossing, is het inmiddels veel meer dan dat.

Belastingdienst

We spraken onder meer met de Belastingdienst en Irdeto. Bij de Belastingdienst in Nederland maken ze ook enorm veel gebruik van Splunk. In totaal verwerken ze dagelijks zo’n 1,5TB aan logdata in Splunk, tijdens de periode dat heel Nederland zijn aangifte moet doen loopt dit op tot 2TB. In totaal heeft de Belastingdienst zo’n 1300TB aan logdata verzameld uit meer dan 26.000 systemen. Elk uur worden er meer dan 3700 zoekopdrachten uitgevoerd. Ook zijn er meer dan 100 teams die gebruikmaken van Splunk.

Een forse Splunk-omgeving dus, die er niet alleen op is gebrand om de infrastructuur te controleren, maar ook het imago van de Belastingdienst te verbeteren. Bij de Belastingdienst hebben ze een hele Splunk implementatie gebruikt op basis van het DNS-protocol om middels DKIM- en SPF-records phising e-mails tegen te gaan. E-mails die door criminelen worden verspreid om uit naam van de Belastingdienst geld los te peuteren bij argeloze burgers. Door de RFC van het e-mailprotocol en de SPF-record te analyseren heeft de Belastingdienst een methode gevonden om phishing tegen te gaan. Dit gaat echter een paar stappen verder dan een standaard loganalyse.

Irdeto

We spraken tijdens SplunkLive! ook met Irdeto, een bedrijf dat allerlei diensten aanbiedt, zoals het streamen van media en het verstrekken van gamelicenties. Zowel de infrastructuur van Irdeto wordt actief geanalyseerd via Splunk, alsook het streamen van media en het verstrekken van licenties. Irdeto gebruikt Splunk vooral om de SLA’s die het heeft afgesproken rondom zijn dienstverlening te waarborgen. Het kan hiermee heel duidelijk aantonen dat het voldoet aan de gemaakte afspraken en zodra een stukje infrastructuur tegen de limieten aan loopt van wat acceptabel is, kan er vroegtijdig worden ingegrepen, voordat er sprake is van een storing. Ook houdt het actief zijn streamingactiviteiten in de gaten, want soms kan een probleem uit een vreemde hoek komen die nog niet altijd is voorzien. Als dan het gebruik van de service ineens fors afneemt, kan dit wijzen op een storing.

Splunk ook zinvol voor GDPR

Een van de klanten die we tijdens SplunkLive! spraken wees ons er ook op dat Splunk heel bruikbaar is in het kader van de GDPR. Als bedrijf kan je nooit uitsluiten dat er geen data uitlekt, daarvoor zijn er teveel processen en mensen bij betrokken. Mocht het toch gebeuren dan riskeer je een boete. Als je als bedrijf kan aantonen dat je er alles aan gedaan hebt om dit te voorkomen, dan zal je niet snel een boete krijgen. Met Splunk kan je alle processen en logs bijhouden van de processen die de compliance moeten waarborgen.

Volgende stap is AI, machine learning en automation

De volgende stap voor Splunk is het inzetten van kunstmatige intelligentie en machine learning om zaken verder te automatiseren. Daar is het al mee begonnen op een security vlak met Splunk Phantom. Ook kunnen apps van beveiligingsbedrijven worden gecombineerd zodat er automatisch analyses gedaan kunnen worden op basis van logs, maar ook informatie van deze externe bedrijven, zodat er gerichte acties kunnen worden uitgevoerd. Bijvoorbeeld het afsluiten of in quarantaine plaatsen van bestanden, processen of complete systemen.

Het mag duidelijk zijn dat het hier niet stopt voor Splunk. Als we vooruitkijken naar het Internet of Things en alle data die deze edge-apparaten en sensoren in de toekomst gaan verzamelen, dan is Splunk een ideale tool om al die data samen te laten komen. Zeker nu er ook ondersteuning is voor streaming data, waardoor er direct actie kan worden ondernomen. Het automatiseren van acties in Playbooks, zoals met Splunk Phantom, zal dan ook niet ophouden bij security maar ongetwijfeld veel breder inzetbaar worden.