4min Analytics

ClickHouse, de open-source uitdager van Snowflake en Databricks

ClickHouse, de open-source uitdager van Snowflake en Databricks

Eind vorige week kwam ClickHouse met twee grote aankondigingen. Het heeft een waardering van 15 miljard dollar na een nieuwe investeringsronde en kocht Langfuse, dat LLM’s van observability voorziet. Wat heeft het platform nog meer te bieden, en hoe hoopt het te groeien?

Over ClickHouse hebben we zelden geschreven. Alleen bij een configuratiefout bij DeepSeek en een bepalende rol bij de recente grote Cloudflare-storing noemden we de oplossing. Nu willen we dieper in de oplossing duiken dan dat. Hoewel ClickHouse namelijk al sinds 2016 als open-source product draait en sinds 2021 als apart bedrijf opereert, is het relatief onderbelicht.

De AI-snelheidsduivel

De wortels van ClickHouse tasten nog verder in het verleden. Als bedenksel binnen het Russische Yandex uit 2009, heeft het al een lange ontwikkeling beleefd. Anno 2026 blijkt de AI-opmars, en de populariteit van LLM’s in het bijzonder, een katalysator voor de groei van ClickHouse. Onder het klantenbestand zijn AI-spelers Microsoft, Meta, DeepSeek, Anthropic en Cursor te vinden, maar ook partijen zo gevarieerd als eBay, Spotify, Lyft, HubSpot en Instacart.

De verklaring voor deze ruime adoptie zit in het feit dat ClickHouse bovenal razendsnel is. De oplossing gebruikt een columnar OLAP (Online Analytical Processing) database. Deze database-vorm is zeer geschikt voor parallelisering, ofwel het simultaan verwerken van verschillende berekeningen. Dat doet het door queries te splitsen of meerdere queries te verspreiden over nodes. Zogeheten Vectorized Query Execution verwerkt data in blokken (batches) in plaats van rij voor rij, wat optimaal gebruikmaakt van moderne CPU-architecturen. Zo worden meerdere datapunten in één instructie uitgevoerd (Single Instruction Multiple Data, kortweg SIMD). Hierdoor presteert ClickHouse sterk tijdens complexe processen, zoals veelal het geval is bij AI-workloads. Het is echter qua architectuur niet toegespitst op het wijzigen van individuele rijen binnen data.

Eén factor bij deze prestaties is datacompressie. Hoe minder diskruimte, des te minder I/O-operaties voor de IT-infrastructuur, met wederom betere prestaties tot gevolg. Dit is waar de vergelijking met een populair dataplatform als Snowflake nuttig blijkt. Daar waar Snowflake bijvoorbeeld een CSV- of JSON-bestand tot grofweg viervoudig kan verkleinen, is het voor ClickHouse mogelijk om de data te reduceren tot een twaalfde of twintigste van het ongecomprimeerde origineel.

Dit voordeel is allesbehalve gratis. Snowflake en Databricks zijn dataplatformen waarbij de gebruiker grotendeels wordt ontzorgd. Bij Snowflake zijn storage en compute ook volledig gescheiden, iets dat flexibiliteit geeft qua schaalbaarheid maar ook latency kent. De integratie met de specifieke hardware kan bij ClickHouse nu eenmaal diepgravender zijn, maar het vergt wel meer engineering-expertise om de snelheid te benutten. Handwerk is nodig om de datacompressie zo effectief mogelijk te maken. Het feit dat Snowflake bestanden minder klein maakt, resulteert tevens in een hogere prijs voor de eindgebruiker. Zo kan de adoptie van ClickHouse, ondanks de extra moeite, het geld waard zijn.

Van specialist naar generalist

In tegenstelling tot forse dataplatformen is ClickHouse dus een gespecialiseerd instrument voor de hoogste AI-prestaties. Maker van AI-model Claude Anthropic stipt dan ook aan dat de bouw van Claude 4 niet mogelijk was geweest zonder de diepgravende real-time inzichten vanuit ClickHouse. Ook het overgenomen Langfuse gebruikte zelf al ClickHouse, naar eigen zeggen zonder een partnership als beweegreden. Die partij stapte over van Postgres, dat zijn beperkingen liet blijken voorbij miljoenen regels binnen de database. Trage observability is een doodsteek voor grote partijen die LLM’s in productie draaien, dus de niche van ClickHouse is snel gevonden.

De rol van ClickHouse lijkt dankzij het toenemende belang van AI steeds centraler. Echter weten Snowflake en Databricks dat zij net zo goed hun prestaties kunnen verbeteren, met als twee grote voordelen dat klanten al aan hun oplossingen gewend zijn en zonder gebruiksvriendelijkheid uit het oog te verliezen. ClickHouse hoopt hun kant op te bewegen voordat die verbeterstap bij de grote rivalen gemaakt is. Het omarmt de cloud, blijft open-source op de vrijgevige Apache 2.0-licentie en kent met ClickHouse Cloud commerciële voordelen. In de cloud kan ClickHouse namelijk naar wens op- en afschalen en bevat het een toegankelijk dashboard.

ClickHouse kent nog niet de features van Snowflake en Databricks om te fungeren als het centrale platform voor bedrijfsdata. Rapportage vanuit alle gegevens binnen een bedrijf of het centraal draaien van AI-agents is voor ClickHouse momenteel nog te algemeen. Het is ook domweg niet de moeite waard om de prestaties te verbeteren van zeldzaam draaiende of niet al te kritieke workloads. De meeste dataverwerking hoeft (nog) niet razendsnel. Hoe meer data wel snel verwerkt moet worden, hoe belangrijker de voordelen van ClickHouse worden.

Lees ook: Snowflake maakt AI met een knip in de vingers volwassen