SAS: ‘Datavolume is niet belangrijk, de variëteit ervan wel’

Datavolume wordt vandaag veel te hoog gewaardeerd. Iedereen kan veel data genereren, maar het is belangrijker om variëteit in die data te hebben. De grootste uitdaging is eerder het doorbreken van datasilo’s binnen het bedrijf om door middel van combinaties een explosieve groei te krijgen in data.

Tijdens een virtuele afspraak met SAS krijgen we een diepere analyse in hoe data een belangrijk verhaal kan vertellen binnen elk bedrijf en wat de focuspunten zijn om op te letten. Catherine Truxillo, Director Analytics Education bij SAS, steekt van wal met één van de grootste problemen binnen bedrijven vandaag: silo’s.

De bekende cartoon van drie blinde mensen die een stuk van de olifant voelen en dat detail perfect kennen, passeert de revue. Het belangrijkste is dat, ondanks de enorme hoeveelheid data, kennis over dat specifieke detail alleen niet waardevol is. Je wil silo’s kunnen doorbreken, in dit voorbeeld door de olifant volledig te herkennen en niet enkel zijn slurf, rug of staart.

sas olifant

“Datavolume is overhyped. Het is niet zo dat de hoeveelheid data parallel loopt met de waarde van die data”, zegt Truxillo. “De variëteit is veel belangrijker, iets wat heel wat bedrijven enkel kunnen bereiken door silo’s neer te halen.”

Silo’s doorbreken

Het is wanneer je die data allemaal samenbrengt, dat explosieve groei mogelijk is met geheel nieuwe inzichten. Kirk Born, Principal Data Scientist bij Booz Allen Hamilton, haalt graag het voorbeeld van NASA en weermodellen aan om het belang van explosieve groei te beseffen.

“Vroeger had NASA talrijke databronnen uit satellieten, zoals meren, wolken, luchtfoto’s en andere meetpunten die apart werden bekeken en geanalyseerd. Het is pas nadat alles werd samengebracht, dat er klimaatmodellen konden worden opgebouwd met korte, middellange en lange voorspellingen.”

Pas wanneer je die data allemaal samenbrengt, is explosieve groei mogelijk met geheel nieuwe inzichten.

Wie NASA zegt, zegt wetenschap. Een simpel bruggetje brengt ons dan naar data science, al langer een hot topic waarin heel wat evolueert. Data wordt al eeuwig verzameld om vragen en hypothesen te bevestigen. Elk bedrijf, elk segment, elke categorie heeft nood aan nieuwe hypothesen om door middel van statistiek, testen en patronen na te gaan wat het meeste inzicht of het meeste waarde oplevert.

Data science

“Het woord data science zegt eigenlijk het belangrijkste: wetenschap. Net als in de wetenschap moet alle data getest, geverifieerd en verfijnd worden”, zegt Born. Hij refereert naar de wetenschappelijke cyclus, gefaalde modellen en wat je daaruit kan leren.

Je start namelijk altijd met een observatie, gevolgd door interessante vragen en een uiteindelijke hypothese. Daarmee ontwikkel je testbare voorspellingen en ga je data verzamelen om die test te bevestigen. Vanaf hier kan je tijdelijk in een vicieuze cirkel komen, waarbij hypotheses worden ontkracht of waar verfijning of uitbreiding nodig is.

Tot slot kom je tot een algemene theorie die je kan ontwikkelen. Hiermee is de wetenschappelijke cirkel rond en kan je opnieuw starten vanaf stap één met nieuwe observaties.

Data storytelling

Data verzamelen en algemene theorieën bevestigen is essentieel, maar daarna start de belangrijke finale stap: data storytelling. Je kan iemand een hele hoop cijfers of datapunten voor zijn of haar neus leggen, maar zonder een duidelijk verhaal en bijhorende motivatie is de kans groot dat je opnieuw naar de tekentafel wordt gestuurd of dat je theorie niet wordt aanvaardt.

sas ticket
sas ticket

Het is essentieel om resultaten in menselijke taal uit te leggen. Niet iedereen heeft computerwetenschappen gestudeerd binnen het bedrijf. Context en betekenis is belangrijk. Born geeft tijdens zijn presentatie een mooi voorbeeld met een klassiek kassaticket. “Standaard toont dat een lijst met al je aankopen, maar met die data kan je ook handig groepen maken zoals fruit, vlees, vis of zuivel. Hoe groter de cirkel, hoe duurder je aankopen. Zo krijg je in één oogopzicht een duidelijk beeld waar je het meeste budget aan uitgeeft in de winkel.”

Hij sluit zijn relaas af met een belangrijke quote van Jordan Morrow, Hoofd datageletterdheid bij Qlik. “Data Literacy includes the ability to read, work with, analyze, and argue with data.” Born benadrukt dat mensen niet hoeven te kunnen coderen om die stap te zetten. “Je moet cijfers kunnen lezen, begrijpen en debatteren om tot een beslissingspunt te komen.”

Nieuwe sessies

Wil je graag de 1 uur lange sessie opnieuw bekijken? Klik dan hier om de opname te bekijken die op 19 mei live ging. Interesse in de andere sessies van SAS om je kennis over data te verbreden? Klik dan hier voor het volledige overzicht.

Dit is een redactionele bijdrage in samenwerking met SAS België rond de virtuele editie van het SAS Forum. Voor meer informatie rond het bedrijf kan je hier terecht.