4 min Analytics

Snowflake Openflow haalt data uit ieder bedrijfssysteem

Snowflake Openflow haalt data uit ieder bedrijfssysteem

Tijdens de Snowflake Summit is zojuist een nieuwe tool voor data engineers onthuld. Naar de AI Data Cloud komt Openflow, een dienst voor data integratie die gebaseerd is op Apache NiFi. Openflow helpt data (gestructureerd, ongestructureerd, streaming en SaaS) uit verschillende bronnen snel en betrouwbaar naar AI-applicaties te krijgen. Gebruikers krijgen toegang tot honderden kant-en-klare connectors, maar kunnen ook zelf bouwen.

Snowflake ziet dat dataverplaatsing een van de grootste uitdagingen is voor bedrijven die AI willen inzetten. Vaak is data verspreid over verschillende systemen, zowel on-premise als in de cloud. Precies op dat stuk gaat Openflow zitten door het proces van data-extractie tot het gebruik in AI-applicaties te vereenvoudigen.

Het platform maakt gebruik van Apache NiFi, een open source-project voor het automatiseren van datastromen tussen verschillende systemen. Door deze bekende technologie te integreren in een beheerde dienst, hoeven bedrijven zelf geen complexe infrastructuur op te zetten voor het verplaatsen van data. Snowflake kan op dit open source-project vertrouwen dankzij de overname van Datavolo van eind 2024. Met behulp van ‘data processors’ automatiseert de Datavolo-technologie processen voor de extractie, opschoning, transformatie en verrijking van gegevens.

AI vraagt om andere aanpak

Snowflake timmert de afgelopen jaren aan de weg om de AI Data Cloud breder toepasbaar te maken. Aanvankelijk was het platform vooral geschikt voor traditionele analytics-workloads, zoals business intelligence. In dat soort usecases volstaat gestructureerde data in batch-processen. Maar de stap in AI-workloads, die twee jaar geleden werd ingeluid, leidt er ook toe dat breder gekeken moet worden. De data-eisen voor AI verschillen aanzienlijk van traditionele business intelligence. AI-modellen hebben toegang nodig tot zowel gestructureerde als ongestructureerde data. Denk aan teksten, afbeeldingen en real-time datastromen.

“Snowflake Openflow maakt datatoegang en AI-paraatheid drastisch eenvoudiger”, zegt VP of Product Chris Child bij de lancering van de nieuwe tool. Child benadrukt dat meer bedrijven een AI-first datastrategie omarmen. Deze strategie vereist toegang tot alle bedrijfsdata in één platform. Het nieuwe platform ondersteunt zowel streaming als batch processing. Voor real-time toepassingen kan Snowpipe Streaming tot 10 gigabytes per seconde verwerken. Data is binnen 5 tot 10 seconden na ingest beschikbaar voor queries. Deze prestaties maken inline transformaties mogelijk tijdens het streaming-proces. Data hoeft niet meer eerst opgeslagen te worden voordat het bewerkt kan worden, wat de totale verwerkingstijd verkort.

Honderden connectors direct beschikbaar

Een van de belangrijkste voordelen van Openflow zijn de honderden voorgebouwde connectors. Bedrijven kunnen direct koppeling maken met systemen als Salesforce Data Cloud, Microsoft SharePoint, Oracle, Workday en ServiceNow. Ook messaging-platformen en cloud object stores worden ondersteund. Onderstaande afbeelding tonen de verschillende systemen waarmee verbonden kan worden.

sno-summit25-pr-openflow_1000x428@2x.png

Op basis van bovenstaande afbeelding kunnen we stellen dat Snowflake Openflow de meeste grote enterprise systemen ondersteunt. Mocht er geen connector voor jouw systeem beschikbaar zijn, dan kunnen data engineers binnen enkele minuten een aangepaste connector bouwen. Deze flexibiliteit is belangrijk voor bedrijven met specifieke IT-architecturen of legacy-systemen, ziet Snowflake.

Open source als basis

Openflow bouwt voort op Apache NiFi, een open source-framework dat door duizenden enterprise organisaties wordt gebruikt. Zij gebruiken het als integratie- en automation-platform voor het ontwerpen, visualiseren en beheren van de data flows tussen systemen. Door de open standaarden van Apache NiFi te omarmen, moet Openflow vendor lock-in voorkomen. Snowflake heeft de basis van Apache NiFi uitgebreid met enterprise-functies zoals governance, beveiliging en observability.

Alle data-integratie wordt gecentraliseerd in één platform met uitbreidbare connectiviteit naar verschillende databronnen. Gebruikers kunnen kiezen tussen deployment in hun eigen cloud-omgeving via Bring Your Own Cloud of via Snowpark Container Services. Beide opties worden als managed services aangeboden om de operationele last te verminderen.

In tegenstelling tot legacy data platforms die vaak vendor lock-in veroorzaken, positioneert Snowflake Openflow als een open architectuur. Gebruikers kunnen data verplaatsen naar verschillende data lakes en lakehouses en aanpassen aan nieuwe industriestandaarden zoals Apache Iceberg.

De service is nu algemeen beschikbaar in alle AWS commerciële regio’s via BYOC-deployment. Snowpark Container Services bevindt zich nog in private preview.