3 min Analytics

Wikidata ontsluit eigen kennisbank door vectorizeren van data

Initiatief ten gunste van open-source AI-modellen

Wikidata ontsluit eigen kennisbank door vectorizeren van data

In een poging om de gigantische hoeveelheid data die in Wikidata aanwezig is beter te ontsluiten, gaat de Duitse afdeling van Wikimedia (de grootste afdeling in zijn soort) een samenwerking aan met DataStax en het Chinese Jina AI. Het doel: de berg data omzetten naar semantische vectoren zodat deze leesbaar en toepasbaar zijn voor AI-toepassingen zonder winstoogmerk.

Wikidata is een enorme, centrale repository aan data, losse feiten en verwijzingen, in gebruik door bijvoorbeeld Wikipedia. Wikidata organiseert alle geboortedatums, locaties, en dergelijke en maakt deze óók machine-readable, zodat de info bruikbaar is over verschillende platformen heen.

Voor developers die deze ruim 112 miljoen entries willen ontsluiten, kan het echter nogal een opgave zijn om te weten waar te beginnen. Bovendien is het doorakkeren van alle data een tijdsintensief proces, iets waar met name grote bedrijven wellicht de middelen voor hebben, maar kleinere organisaties in veel mindere mate.

Leesbaar door machine learning applicaties

Het nieuwe initiatief, aangekondigd tijdens de Open Source Summit in Wenen, moet daarom het proces van data-analyse vereenvoudigen door de Wikidata-items te vertalen naar semantische vectoren, leesbaar door machine learning-applicaties. Dit zou de nauwkeurigheid van AI-modellen kunnen verbeteren omdat de data op Wikidata up-to-date en geverifieerd is, zo is althans de bedoeling.

Voorwaarde daarbij is dat het open-source-modellen zijn die hiervan de vruchten mogen plukken, en daarbij een levensvatbaar alternatief blijven voor gesloten modellen door de input van een veelheid aan onafhankelijke, betrouwbare bronnen. Het is de bedoeling dat de gegevens aanwezig in Wikidata op termijn ook beschikbaar komen voor Retrieval Augmented Generation (RAG).

Tip: Wat is RAG (Retrieval-Augmented Generation)?

DataStax stelt de vectordatabase-technologie ter beschikking, Jina AI zorgt voor het embeddingsmodel dat het vectorizeren van tekstgebaseerde data mogelijk maakt. De directe semantische analyse die hierdoor binnen bereik komt, moet de nauwkeurigheid ten goede komen en bovendien vandalisme snel zichtbaar maken.

Data lastig op schaal te ontsluiten

De leiding over het project ligt in handen van Dr. Jonathan Fraine, hoofd softwaredevelopment bij Wikimedia Deutschland, samen met Lydia Pintscher, Portfolio Lead Product Manager van Wikidata. Als een van de belangrijkste redenen voor de totstandkoming van het project noemde Fraine dat toegang tot Wikidata anders een uitdaging zou blijven vanwege de enorme hoeveelheid gegevens die weliswaar voorhanden is, maar lastig op schaal is te ontsluiten. Pintscher voegde daaraan toe dat dankzij de verbeterde toegang tot de schat aan data, open-source AI een realistisch alternatief blijft voor commerciële generatieve AI-modellen. Het project moet begin 2025 in bèta gaan.

De keuze voor DataStax als partner-in-vectorisatie is begrijpelijk, aangezien het bedrijf inmiddels een keur aan tools biedt voor de ontwikkeling van AI-modellen, zoals Langflow en RAGStack. Langflow was een bestaand visual framework dat eerder dit jaar dankzij een overname in het portfolio van het in San José gevestigde bedrijf terechtkwam. Het framework is ook beschikbaar op het DataStax Cloud-platform. RAGStack een out-of-the-box RAG-oplossing waarin meerdere building blocks zitten verpakt voor het bouwen van AI-software. Het is ook mogelijk Langflow te integreren in deze oplossing.

Lees ook: DataStax vernieuwt tools voor ontwikkeling AI-applicaties