VAST bouwt Data Platform verder uit: InsightEngine maakt alle RAG data real-time beschikbaar

Van DASE tot InsightEngine

VAST bouwt Data Platform verder uit: InsightEngine maakt alle RAG data real-time beschikbaar

VAST Data bouwt Data Platform uit met de toevoeging van InsightEngine, in samenwerking met Nvidia. Hiermee wil het bedrijf organisaties die Retrieval-Augmented Generation (RAG) inzetten voor hun (inferencing-)workloads meer schaalbaarheid en minder complexiteit bieden. Het is de meest recente stap van het bedrijf dat de beste data-infrastructuur wil bouwen en zijn voor AI-workloads.

VAST Data is al sinds 2019 uit de zogeheten stealth mode en timmert hard aan de weg de laatste jaren. Er zijn al de nodige investeringsrondes geweest en het bedrijf heeft met Cosmos vandaag ook al een heus (online) event op poten gezet. Het kondigt vandaag samen met Nvidia ook de VAST InsightEngine aan. Dat kun je zien als een voorlopig hoogtepunt van de visie van het bedrijf. Het is tot op zekere hoogte ook een logische stap. Vorig jaar kwam het VAST Data Platform uit. Dit jaar was er de preview van VAST DataEngine, de runtime van VAST Data. VAST InsightEngine maakt gebruik van de VAST DataEngine en is de eerste specifieke workflow die op het VAST Data Platform draait.

We kunnen ons goed voorstellen dat je na het lezen van bovenstaande alinea de weg enigszins kwijt bent in een doolhof van VAST-terminologie. Vandaar dat we hieronder de verschillende componenten kort introduceren, waarna we het belang van VAST InsightEngine zullen duiden. Wil je daar vooral meer over weten, omdat je al wat beter bekend bent met het oeuvre van VAST Data, dan kun je dus meteen een stukje naar onderen scrollen en verder lezen onder het kopje VAST InsightEngine.

De basis: VAST DASE

Voor we het gaan hebben over VAST DataEngine en VAST Data Platform, eerst even een kort bezoekje aan de basis van VAST Data. Het bedrijf is namelijk relatief jong in de markt waarin het actief is. Voorheen zouden we dit de storagemarkt noemen. Die naam doet echter geen recht meer aan wat dit soort spelers doen. Natuurlijk zijn er appliances waar de data opgeslagen wordt, maar het gaat veel meer om het platform er bovenop of overheen. Dat platform kan echter alleen optimaal gebouwd worden als er een architectuur onder ligt die dit mogelijk maakt. Deze basis gaat bij VAST Data door het leven als DASE.

DASE staat voor Disaggregated, Shared-Everything. Compute en storage zijn losgekoppeld van elkaar, wat de schaalbaarheid van de infrastructuur sterk ten goede komt. Heb je meer storage nodig, dan hoef je alleen meer storage toe te voegen en niet ook meteen meer compute. Daarnaast is het een sterk vereenvoudigde architectuur, waarbij ook geen sprake is van tiering. Alle traditionele tiers (hot, cold, archive) zitten in dezelfde (all-flash) tier. Dat is mogelijk omdat alles in principe met elkaar kan communiceren binnen deze architectuur. Dat is waar het Shared-Everything-gedeelte in DASE voor staat. Tot slot verloopt de communicatie tussen de verschillende delen ook nog eens razendsnel via NVMe, ook als er opgeschaald moet worden.

Bovenstaande omschrijving van DASE is vanzelfsprekend wat kort door de bocht. Voor een uitgebreidere versie verwijzen we je graag naar deze pagina van VAST Data zelf.

VAST Data was er vroeg bij

Met DASE heeft VAST Data in 2019 (eigenlijk ervoor) al gedaan wat veel oudere spelers in deze markt veel later doen. Zo waren we vorige week nog aanwezig bij NetApp Insight. Dat bedrijf kondigde tijdens het evenement een nieuwe, gedisaggregeerde architectuur aan. Die hebben (vanzelfsprekend) ook ingezien dat dit nodig is. Die hebben echter te maken met dermate veel legacy dat dit niet zomaar kan. We hebben begrepen dat het in de labs van NetApp al draait. Wanneer het daadwerkelijk breed uitgerold wordt, is nog niet duidelijk.

Legacy had VAST Data niet toen het DASE ontwikkelde. Dat gaf en geeft het bedrijf een grote voorsprong op het gebied van de moderne gedisaggregeerde architectuur. Als het gaat om de diepte van het aanbod, bijvoorbeeld op het gebied van features, moet het bedrijf nog wel de nodige stappen zetten om op het niveau van de oudere spelers te komen. Of misschien ook wel niet. VAST Data richt zich met de eigen architectuur vooral nieuwe AI-gedreven workloads van organisaties. Daar wil het een dataplatform voor ontwikkelen. Dat betekent ook automatisch dat op dit moment niet iedereen een klant is voor VAST Data. Of nog niet, als we ervan uitgaan dat iedereen uiteindelijk op de AI-trein zal springen.

VAST DataStore, DataBase, Data Platform en DataEngine

Nu we de fundamentele architectuur enigszins scherp hebben, kunnen we naar de overige termen kijken die je vaak tegenkomt binnen de wereld van VAST Data. Aan de ene kant is er het datagedeelte, dat bestaat uit de DataStore en de DataBase. De VAST DataStore is de file en object store van het bedrijf (oftewel gestructureerde en ongestructureerde data). Voor de VAST DataBase heeft VAST weer een consolidatie doorgevoerd, die je zou kunnen vergelijken met het in elkaar vouwen van de verschillende tiers hierboven. Dat wil zeggen, het is VAST gelukt om een database te bouwen waar ook meteen een transactioneel data warehouse in zit.

Verder is het ook nog interessant dat de VAST DataBase ook met vector data aan de slag kan. Dat is de data waar AI-toepassingen gebruik van maken. VAST Data kan ongestructureerde data omzetten in gestructureerde data en dat wegschrijven in de VAST DataBase. Nadat dit is gebeurd kunnen er queries afgevuurd worden op deze data. Aangezien er veel waarde in ongestructureerde data kan zitten, ook voor AI-toepassingen, zorgt dit ervoor dat er zo veel meer data beschikbaar komt om waarde uit te halen. Het omzetten en queryable maken van ongestructureerde data is tegenwoordig zinvol, omdat neurale netwerken dit soort data inmiddels erg goed snappen, geeft Jeff Denworth, mede-oprichter van VAST Data aan tijdens een briefing die we bijwoonden.

Zowel de VAST DataStore en de VAST DataBase maken deel uit van het VAST Data Platform. Dat platform zorgt ervoor dat deze onderdelen optimaal met elkaar integreren, is het idee. Daarvoor heeft het de nodige intelligentie nodig. Die komt in de vorm van de VAST DataEngine. Dit is tot vandaag de recentste toevoeging aan het aanbod van VAST Data en is heel plat geslagen een verzameling van serverless functions en triggers. Die moeten ervoor zorgen dat de files, objects en tabellen tot leven komen en meerwaarde gaan opleveren voor de gebruiker.

De VAST DataEngine leeft in een container en kan uitgerold worden op CPU’s, GPU’s en DPU’s. Hij zorgt ervoor dat de logica die nodig is om de waarde van de DataBase en DataStore optimaal te benutten, onderdeel is van het Data Platform. Om een en ander nog wat beter aan elkaar te koppelen op schaal en in gedistribueerde omgevingen, is er tot slot nog de VAST DataSpace. Dat is een global namespace die ervoor zorgt dat alle data overal altijd toegankelijk is en optimaal presteert en beveiligd is.

VAST InsightEngine

Hierboven hebben we in een notendop uiteengezet wat VAST Data te bieden heeft. Je zou dat de basis kunnen noemen. Vandaag kondigt het bedrijf met VAST InsightEngine de eerste zogeheten applicatieworkflow aan die op het VAST Data Platform draait. Dit is een workflow die is gericht op een specifieke taak. Deze specifieke taak is het in real time binnenhalen en verwerken van alle enterprise data.

VAST Data heeft een native integratie tussen het eigen Data Platform en Nvidia NIM microservices om de (ongestructureerde) data die binnenkomt meteen te voorzien van de nodige semantische waardes. Daarvoor zet het de spierballen in die Nvidia kan leveren in deze samenwerking. InsightEngine gebruikt VAST DataEngine om een trigger te sturen naar de Nvidia NIM embedding agent op het moment dat er nieuwe data naar de systemen van VAST geschreven wordt. Die zorgt ervoor dat ongestructureerde data in real time omgezet wordt naar vectors of graphs. Deze data is dan vrijwel meteen beschikbaar en doorzoekbaar is voor AI-taken.

Onderaan de streep is VAST InsightEngine een ontwikkeling die real-time Retrieval-Augmented Generation (RAG) mogelijk moet maken. Bij RAG heb je altijd externe databronnen die je inzet om tot inzichten te komen. Als dat ongestructureerde databronnen zijn, moeten die eerst worden omgezet. Dat kan dus nu allemaal binnen het platform van VAST Data. We zien ook hier dus weer het patroon dat VAST Data vooral stappen uit processen en workflows wil halen. Dat levert een platform op dat een stuk minder complex is dan tot nu toe het geval was. Sterker nog, het automatiseert de workflow rondom data voor AI-toepassingen. Daarnaast is het ook nog eens een stuk sneller zonder daarbij in te boeten op het gebied van consistentie en veiligheid van de data, volgens VAST Data. Met het oog op AI is dit zonder meer prettig. Dat voegt namelijk al genoeg complexiteit toe voor organisaties.

Schermafbeelding 2024-09-23 152115