Azure HDInsight krijgt eigen Hadoop-distributie

Microsoft heeft zijn eigen Hadoop-distributie ontwikkeld voor Azure HDInsight. Voorheen gebruikte Microsoft de distributie van Hadoop, maar sinds de fusie met Cloudera leverde dat problemen op. Dankzij de eigen distributie is Microsoft niet langer afhankelijk van een derde partij.

De piek van de big-data hype ligt inmiddels alweer enkele jaren achter ons. De Hadoop-technologie maakte in deze dagen zijn grootste succes door. Hoewel sommigen beweren dat de Hadoop-technologie verleden tijd zou zijn, speelt ze nog steeds een belangrijke rol. 

De Hadoop-technologie is de basis voor een ecosysteem van aangesloten projecten die de database, data lake, streaming data en data engineering-functionaliteit ondersteunen. Cloud systemen gebaseerd op Hadoop, zoals EMR van Amazon en Dataproc van Google Cloud, zijn daarom nog steeds essentieel. 

Azure HDInsight, de Hadoop-dienst van Microsoft cloud laat nog eens zien waarom Hadoop nog altijd bruikbaar is. De dienst blijft bestaan, zelfs nu Microsoft concurrerende diensten heeft gelanceerd. 

Overstap van Hortonworks naar eigen distributie

Microsoft ontwikkelde HDInsight in samenwerking met Hortonworks. Later fuseerde Hortonworks met Cloudera, waardoor ook de Hadoop-distributie van Hortonworks (Hortonworks Data Platform, afgekort als HDP) werd samengevoegd met de distributie van Cloudera in Cloudera Data Platform (CDP). Dat leverde een uitdaging op voor Microsoft, aangezien HDInsight was gebaseerd op HDP. 

Na de fusie vroeg men zich af of Microsoft over zou gaan op de CDP-distributie of toch zijn eigen distributie zou ontwikkelen, zoals AWS en Google vanaf het begin al hadden gedaan. De laatste optie blijkt nu het geval te zijn. De algemene beschikbaarheid van de eigen Hadoop-distributie van Microsoft werd afgelopen juli bekendgemaakt tijdens Inspire en wordt nu uitgerold. 

Toewijding aan Azure HDInsight

Hoewel Microsoft meerdere vergelijkbare diensten met Azure HDInsight heeft, steekt het bedrijf veel moeite in de dienst. Dat komt doordat HDInsight nog altijd functies biedt die niet beschikbaar zijn in andere Azure data services. HDInsight biedt bijvoorbeeld de mogelijkheid om componenten met elkaar te mixen, wat niet mogelijk is met Azure Databricks. Ook zijn andere Azure diensten van Microsoft serverloos. Iets wat werkt voor sommige klanten, maar voor andere niet. 

Nu Microsoft de onderliggende distributie voor HDInsight zelf controleert, kunnen we verwachten dat er nog meer innovaties komen. Met een stap als deze laat Microsoft duidelijk zien toegewijd te zijn aan HDInsight, iets wat voorheen nog onzeker was.