Het nieuwe product belooft het bouwen van betrouwbare datapipelines te vereenvoudigen.
LakeFlow is een van de oplossingen die Databricks onthult tijdens de Data + AI Summit. Volgens het bedrijf is LakeFlow een essentiële innovatie voor data engineering, aangezien dit een uitdagende en complexe discipline blijft. Datateams moeten data ingestion regelen via systemen met een silo- en proprietary-karakter. Denk daarbij aan databases en enterprise-apps. Om dit goed te kunnen regelen, dienen ze vaak complexe en fragiele connectoren te bouwen. Daarnaast komen bij de datavoorbereiding werkzaamheden kijken voor het behouden van ingewikkelde logica. Bij latencypieken kan verstoring optreden, met uiteindelijk ontevreden klanten tot gevolg. Bovendien vereist het deployen van pipelines en het monitoren van datakwaliteit vaak extra tools.
Al deze uitdagingen moeten aangepakt worden met LakeFlow. Het biedt een enkele omgeving binnen het Data Intelligence Platform van Databricks, waarbij er een integratie is opgezet met Unity Catalog voor governance.
Tip: Unity Catalog is vanaf nu open source software
Connect, Pipelines en Jobs
Databricks ziet een betere toekomst voor engineers voor zich door allereerst het ingestion-proces aan te pakken. Dit gebeurt via LakeFlow Connect, dat een reeks schaalbare connectoren biedt voor databases als MySQL, Postgres, SQL Server en Oracle. Voor enterprise software zijn ook connectoren beschikbaar, namelijk voor Salesforce, Microsoft Dynamics, SharePoint, Workday en NetSuite. Bij deze technologie komt ook het vorig jaar voor bijna 100 miljoen euro overgenomen Arcion tot zijn recht. Arcion verzekert lage latency en hoge efficiëntie. Het doel van LakeFlow Connect is om alle data, ongeacht de omvang, het formaat of de locatie, beschikbaar te maken voor batch- en realtimeanalyse.
Een ander onderdeel dat engineering-taken binnen LakeFlow verenigt, noemt men Pipelines. Dit onderdeel bouwt voort op Databricks Delta Live Tables en laat dataprofessionals datatransformatie en ETL implementeren in SQL en Python. “LakeFlow elimineert de noodzaak van handmatige orkestratie en verenigt batch- en streamverwerking. Het biedt incrementele dataverwerking voor optimale prijs/prestatie. LakeFlow Pipelines maakt zelfs de meest complexe streaming- en batchgegevenstransformaties eenvoudig te bouwen en eenvoudig te bedienen”, aldus Databricks tijdens de aankondiging.
Tot slot heeft Databricks gekeken wat het kan doen om met de nieuwe oplossingen workflows te orkestreren in het Data Intelligence Platform. Men realiseert dit via LakeFlow Jobs, een onderdeel dat observability biedt voor het detecteren, diagnosticeren en mitigeren van dataproblemen om de betrouwbaarheid van pipelines te verbeteren. LakeFlow Jobs automatiseert het deployen, orkestreren en monitoren van pipelines in één omgeving.
Tip: Databricks verstevigt Mosaic AI als basis voor bouwen AI-apps