2 min Analytics

Unity Catalog is vanaf nu open source software

Unity Catalog is vanaf nu open source software

Twee jaar na de algemene beschikbaarheod van de Unity Catalog kiest Databricks er nu voor het product open source te maken.

Veel bedrijven die gebruikmaken van de lakehouse-architectuur van Databricks, kiezen ook voor de Unity Catalog. Met deze tool kunnen ze het beheer van hun data-assets regelen. De Unity Catalog biedt meerwaarde voor een datastrategie, omdat de oplossing goed samenwerkt met het gehele Databricks-ecosysteem. Tot nu toe was het echter een closed source-product: de documentatie beschrijft het objectmodel wel goed, maar de exacte implementatiedetails waren niet publiekelijk beschikbaar.

Nu kiest Databricks voor de open source-route, een logische stap gezien de vergelijkbare stappen met andere Databricks-technologieën. “Dit initiatief bouwt voort op de toewijding van Databricks aan open ecosystemen, waardoor klanten de flexibiliteit en controle krijgen die ze nodig hebben zonder vendor lock-in”, aldus het bedrijf tijdens de bekendmaking op de Data + AI Summit.

Het project is gedoneerd aan de Linux Foundation, dat het donderdagochtend tijdens de Summit officieel accepteerde.

Tip: Databricks koopt Tabular en verenigt data lakehouse-standaarden

Interoperabiliteit, openheid en verenigde governance

Unity Catalog OSS, waarbij OSS staat voor open source software, bevat volgens Databricks drie kernfuncties. Ten eerste beschikt het over een universele interface die alle dataformaten en compute-engines ondersteunt. Hierbij worden het uitlezen van tabellen met Delta Lake, Apache Iceberg en Apache Hudi in het bijzonder genoemd. Ook is er ondersteuning voor de Iceberg REST Catalog- en Hive Metastore (HMS)-interfacestandaarden.

Daarnaast heeft Databricks ervoor gezorgd dat Unity Catalog OSS compatibel is met de cloudplatformen Microsoft Azure, AWS, Google Cloud en Salesforce. Voor de compute-engines is er interoperabiliteit met Apache Spark, Presto, Trino, DuckDB, Daft, PuppyGraph en StarRocks. Tot slot de data- en AI-platformen waarmee het compatibel is: dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton en Unstructured.

Naast dit interoperabiliteitskenmerk heeft Unity Catalog OSS een open karakter. Het biedt open API’s en een Apache 2.0-gelicentieerde open source server, om de flexibiliteit en klantkeuze voor engines, tools en platforms te waarborgen. Daarnaast noemt Databricks unified governance als derde kenmerk. Dit houdt in dat Unity Catalog OSS verenigde governance-functionaliteit biedt voor zowel tabeldata als niet-tabeldata en AI-assets als modellen en generatieve AI-tools. Hierdoor moeten bedrijven in staat zijn het beheer en de discovery te vereenvoudigen.

Techzine is deze week aanwezig op de Data + AI Summit van Databricks. Houd de website in de gaten voor de laatste ontwikkelingen rond het bedrijf.