Databricks heeft met het lakehouse de afgelopen jaren een sterke architectuur neergezet voor de AI-workload. Nu dat verhaal staat en verder wordt geoptimaliseerd, is Databricks werk aan het verzetten om de analytics workload beter te kunnen dienen. Van CEO Ali Ghodsi begrijpen we dat bedrijven enthousiast reageren en de vooruitzichten rooskleurig zijn. Wat is precies de strategie?
Met het lakehouse is Databricks binnen enkele jaren uitgegroeid tot een bedrijf dat meer dan een miljard euro omzet genereert. Dit platform, dat gestructureerde en ongestructureerde gegevens verenigt op één architectuur, is voor de meeste organisaties de reden waarom ze gebruikmaken van Databricks. Het lakehouse maakt gebruik van open-source-componenten en biedt bedrijven de mogelijkheid om zowel data uit traditionele data warehouses als uit moderne data lakes te beheren. Op die manier vereenvoudigt het de toegang tot en het gebruik van verschillende soorten data en zorgt Databricks ervoor dat data-workloads op dezelfde infrastructuur kunnen draaien. Het platform floreert met name bij het draaien van AI-workloads.
Mosaic voor optimaliseren GPU-verbruik
Tijdens de recente editie van de Data + AI Summit in San Francisco bleek dat het Data Intelligence Platform van Databricks als basis voor AI-workloads vol in ontwikkeling blijft. Dat is logisch, aangezien de behoeftes rond AI ook voortdurend veranderen. Daar moet een basisarchitectuur als Databricks voortdurend op blijven inspelen. De meest significante investering op dit vlak komt voorlopig uit de Mosaic-hoek. Het bedrijf nam deze technologie vorig jaar over. Mosaic kan veel extra’s bieden als het gaat om het ondersteunen van AI-workloads.
Voor het platform was een dergelijke toevoeging aantrekkelijk omdat de oorspronkelijke Databricks-technologie weliswaar goed kan omgaan met het optimaliseren van CPU-verbruik, maar niet zozeer dat van GPU’s. CPU’s zijn bruikbaar bij het trainen van modellen zonder al te veel resourcebehoeften, zoals machine learning voor predictive maintenance. Ga je een model trainen waar veel rekenkracht voor nodig is, dan is het echter verstandiger om technologie te gebruiken voor het optimaliseren van GPU-gebruik.
De GPU is sterker in het trainen van geavanceerde modellen, maar het gebruik van energie slurpende GPU-kracht moet zo efficiënt en zuinig mogelijk. Vandaar ook dat met Mosaic nu technologie in handen is om het GPU-gebruik te optimaliseren.
Lees ook ons verhaal waarin we ingaan op alles wat het Data Intelligence Platform te bieden heeft.
Grootste verandering voor Data Intelligence Platform
Uiteraard was het al mogelijk om via het Databricks-platform GPU’s te gebruiken, maar de mogelijkheden zijn nu uitgebreider. Daar komt bij dat Databricks door Mosaic een engine aan het Data Intelligence Platform toevoegt die automatische indexering en data-partitionering toepast. Ook voegt het omschrijvingen en tags toe aan data-assets in de governance-oplossing Unity Catalog. Dit om de semantische zoekfunctie te versterken en de kwaliteit van AI-assistenten te verbeteren.
Daarnaast brengt Mosaic technologie naar het Data Intelligence Platform om te helpen bij het bouwen van AI-apps. Zo werd tijdens de Data + AI Summit de public preview van Mosaic AI Model Training onthuld, waarmee open-source modellen verrijkt worden met bedrijfsdata. Dat resulteert in betrouwbaardere en goedkopere modellen. De Mosaic AI Gateway biedt een interface voor het beheren en deployen van modellen en houdt kosten en veiligheid in de gaten. Ook komen Mosaic AI Vector Search en Mosaic AI Agent Framework eraan voor het ontwikkelen en evalueren van RAG (Retrieval-Augmented Generation)-applicaties. Op die manier moet de nauwkeurigheid van LLM’s verbeteren door gebruik te maken van meerdere interactieve componenten.
Tip: Databricks verstevigt Mosaic AI als basis voor bouwen AI-apps
Hoe staat analytics er nu voor?
Deze hele optimalisering van het Databricks-platform voor AI zal ervoor zorgen dat het bedrijf met de verwachtingen rond kunstmatige intelligentie de komende jaren een solide basis heeft om verder te groeien. De realiteit is ook dat het lakehouse en nu het Data Intelligence Platform ervoor gezorgd hebben dat Databricks zo’n beetje de standaardkeuze is voor grote multinationals om AI-workloads te draaien. Bij diezelfde multinationals draaien vaak ook oude data warehousing-producten en modernere platformen om analytics workloads te kunnen draaien. Dat resulteert in meerdere data-architecturen van verschillende leveranciers met allemaal hun eigen doelen. Zou je dat aantal niet terug kunnen brengen om de databasis efficiënter te laten functioneren?
We vroegen Ghodsi dan ook naar de progressie in het analytics-veld. Daar is Databricks nu zo’n vier jaar veel actiever in. Aanvankelijk via de private preview van Databricks SQL om data warehousing-mogelijkheden en SQL-ondersteuning naar het lakehouse te brengen, waarna eind 2021 de algemene beschikbaarheid volgde. Hiermee kunnen bedrijven beter business intelligence (BI) en reporting draaien op het platform. Ghodsi geeft aan dat Databricks SQL inmiddels het snelst groeiende product uit de historie van Databricks is. In die tijd is 400 miljoen dollar jaarlijks terugkerende omzet gerealiseerd, wat neerkomt op zo’n 373 miljoen euro. Om dat in contrast te plaatsen: Databricks zit ook achter projecten als Spark, Delta Lake, Unity Catalog en Koalas. Allemaal producten met een flinke aanwezigheid in de datawereld, maar die in eerste instantie dus minder hard groeiden dan Databricks SQL.
Tien keer beter zijn dan de rest
Ghodsi geeft aan dat bij de lancering echt iets anders gedaan moest worden met het analytics-product om er een succes van te maken. Men had immers nog niet een zeer goed data warehousing-product. Een van de oprichters van Databricks, Reynold Xin, ging daarom op zoek naar gekwalificeerd personeel om een kundig team op te zetten. “We zeiden niet alleen: ‘we gaan een datawarehouse bouwen en dat is goed genoeg, geloof ons dat het net zo goed is als wat er is’. Dan kun je het eigenlijk niet winnen. Je moet tien keer beter zijn als je wilt winnen”, aldus Ghodsi.
Met die laatste woorden doelt de CEO op de data warehousing-benchmarks die met regelmaat verschijnen. Daarin verslaat Databricks SQL concurrenten met een factor van 10+ als het aankomt op prijs-prestaties. “We hebben het verstoord door te zeggen dat het geen datawarehouse is. Het zijn je eigen data, je bent er zelf eigenaar van. Geen propriëtaire lock-in meer. En je kunt er AI bovenop doen. We hadden er dus een disruptieve aanpak voor, waardoor we het zo snel konden laten groeien”, voegt Ghodsi verder toe.
Tip: Unity Catalog is vanaf nu open source software
Wat zijn de plannen voor analytics?
Nu Databricks voet aan de grond heeft gekregen in de analytics-wereld, zijn er genoeg ambities om verder door te groeien. Daarom bouwde het bedrijf het nieuwe BI-product Databricks AI/BI. Dit is bedoeld om de semantiek van data te begrijpen en helpt om iedere medewerker zelf data te laten analyseren. Aan ambitie om business users meer te betrekken bij BI heeft het de afgelopen jaren over het algemeen niet ontbroken, maar in de praktijk is de basis nog steeds vooral een taak van data-experts.
Databricks AI/BI is gebaseerd op een compound AI-systeem, wat wil zeggen dat taken afgehandeld worden door meerdere interactieve componenten te combineren. AI/BI gebruikt zo’n systeem om inzichten te halen uit de volledige levenscyclus van de data binnen het Databricks-platform. De componenten die AI/BI meeneemt zijn ETL-pipelines, lineage en andere queries.
Door deze compound-werkwijze maakt AI/BI twee zaken mogelijk. Ten eerste is er het AI/BI Dashboard, wat een low-code dashboarding-oplossing betreft met alle conventionele business intelligence-mogelijkheden voor het beantwoorden van vragen. Daarnaast is er Genie. Deze functie betreft een conversatie-interface die continu de onderliggende data en semantiek kan leren op basis van menselijke feedback. Genie kan een veel breder scala aan zakelijke vragen beantwoorden op basis van zijn redeneercapaciteiten, terwijl het nog steeds gecertificeerde antwoorden levert voor querypatronen die door de datateams zijn gespecificeerd.
Met deze investeringen laat Databricks zien na de AI-wereld ook de analytics-markt op te willen schudden. Op termijn moeten we zien of het aantal warehousing en andere dataplatformen bij bedrijven teruggaat, maar de eerste tekenen zijn zichtbaar. Wij zijn benieuwd hoe de AI- en analytics-benaderingen van Databricks zich verder ontwikkelen.