Hoogwaardige data zijn essentieel voor een succesvol AI-project, maar veel IT-managers lijken nog altijd niet de nodige stappen te ondernemen om de datakwaliteit te waarborgen.
Dit blijkt uit een nieuw rapport van Hitachi Vantara, de State of Data Infrastructure Survey, gebaseerd op antwoorden van 1.200 IT-beslissers uit 15 landen. De kwaliteit van data is al langer een uitdaging, zoals Techzine eerder schreef. Maar uit het nieuwe rapport blijkt dat 37% van de respondenten nog steeds aangeeft dat data hun grootste zorg is. Dit terwijl 41% van de Amerikaanse respondenten zegt dat “‘het gebruik van hoogwaardige data’ de meest voorkomende reden is waarom AI-projecten succesvol waren, zowel in de VS als wereldwijd.”
Hitachi Vantara voorspelt dat de benodigde opslagcapaciteit voor data met 122% zal toenemen tegen 2026, wat aangeeft dat het opslaan, beheren en labelen van data steeds moeilijker wordt.
Veel data ongestructureerd
De uitdagingen dienen zich al aan. 38% van de respondenten zegt dat data het grootste deel van de tijd beschikbaar zijn, en slechts 33% zegt dat de meerderheid van hun AI-resultaten accuraat is. Daarnaast geeft 80% aan dat het merendeel van hun data ongestructureerd is, wat het probleem nog groter kan maken naarmate de datavolumes toenemen.
Verder blijkt dat 47% van de respondenten geen data labelt voor visualisatie. En dat slechts 37% werkt aan het verbeteren van de kwaliteit van trainingsdata. Nog erger is dat 26% datasets niet controleert op kwaliteit.
Dataverlies “catastrofaal”
Daarnaast blijkt uit het onderzoek dat beveiliging een topprioriteit is. 54% noemt het hun belangrijkste zorg binnen hun infrastructuur. 74% is het ermee eens dat een aanzienlijk dataverlies catastrofaal zou zijn voor de bedrijfsvoering, en 73% maakt zich zorgen over hackers die toegang hebben tot AI-geoptimaliseerde tools.
Tot slot wordt duurzaamheid of ROI nauwelijks meegenomen in AI-strategieën. Slechts 32% beschouwt duurzaamheid als een topprioriteit, en 30% geeft aan dat ROI van AI een prioriteit is.
Eenenvijftig procent van de grote bedrijven ontwikkelt algemene large language models (LLM’s) in plaats van kleinere, gespecialiseerde modellen die tot 100 keer minder energie kunnen verbruiken.
Lees ook: Qlik introduceert Talend Cloud voor datakwaliteit en betrouwbaarheid