Google integreert BigQuery en Kaggle

Google integreert zijn BigQuery cloud datawarehouse en analytics-service met Kaggle. Data scientists en andere machinelearning-enthousiasten gebruiken de online community Kaggle om hun werk te verkennen, analyseren en delen. 

Door BigQuery te combineren met Kaggle wil de internetgigant de samenwerking bevorderen binnen de machinelearning-community, die probeert na te bootsen hoe het menselijk brein leert, aldus Silicon Angle.

Kernels

Volgens Google, dat twee jaar geleden Kaggle overnam, is het mogelijk om gegevens in een intuïtieve ontwikkelomgeving op te vragen. Dit alles zonder die informatie eerst te verplaatsen of downloaden. Gebruikers kunnen SQL-query’s uitvoeren en machinelearning-modellen trainen in de gestructureerde querytaal. Vervolgens kunnen die modellen weer worden geanalyseerd in Kernels, een door Kaggle gratis gehoste Jupyter-notebookomgeving. Deze webapplicaties maken het voor data scientists eenvoudiger om softwarecode te delen en eraan samen te werken.

Wel dienen data scientists een Google Cloud-account aan te maken en deze te koppelen aan hun Kernels-notebook of -script. Hierna zijn ze in staat om hun gegevens op te vragen en rechtstreeks vanuit het notitieboek analyses uit te voeren. Dit met behulp van de API-bibliotheek van BigQuery.

Importeren databibliotheken

“De nieuwste databibliotheken zoals Matplotlib, scikit-learn en XGBoost kunnen bijvoorbeeld worden geïmporteerd om resultaten te visualiseren of geavanceerde machineleermodellen te trainen. Beter nog, profiteer van Kernels gratis rekenmachine die GPU’s, tot 16 GB RAM en negen uur executietijd omvat”, aldus Kaggle product manager Jessica Li en BigQuery Director Jordan Tigani in een blogpost.

“Bovendien is Kaggle een platform waarmee je Kernels eenvoudig openbaar kunt maken. Met Kaggle kunnen gebruikers hun opensource werk verspreiden en data science bespreken met ‘s werelds beste data science professionals.”

Google stelt dat het zoeken naar en analyseren van gegevens binnen Kaggle een naadloos proces is. Het zou niet langer nodig zijn om eerst gegevens in een query-editor te zoeken en deze vervolgens naar elders te exporteren om de analyse te voltooien.