Google TPU 3.0: snellere AI dankzij waterkoeling

De honger naar steeds krachtigere artificiële intelligentie (AI) valt niet te stoppen. Nvidia trekt de kar met zijn GPU’s, maar de concurrentie zit niet stil. Google lanceert versie drie van zijn eigen Tensor Processing Unit (TPU) om meer computerkracht in neurale netwerken te pompen.

De doorbraak van AI binnen alle cloudplatformen legt Nvidia geen windeieren. Ze timmeren al ruim tien jaar aan die weg en plukken nu de vruchten met een dominant marktaandeel, vergelijkbaar met Intel aan de CPU-kant. De GPU’s van Nvidia zijn alomtegenwoordig op elk cloudplatform, maar dat belemmert de concurrentie niet om zelf iets uit te werken.

TPU-historiek

Google heeft in 2015 zijn allereerste TPU gelanceerd, een oefening om alles te leren die heel primitief oogde. Bekijk het als een handige rekenmachine die nog steeds een CPU nodig had. Vanaf TPU 2.0 kreeg de chip veel meer complexiteit mee en kon het als aparte chip worden gebruikt. Met TPU 2.0 kunnen ontwikkelaars vandaag ook AI-berekeningen uitvoeren in de Google Cloud.

Met TPU 3.0 heeft Google een chip ontwikkeld die 8 keer sneller is dan zijn voorganger. Volgens The Register zijn er niet veel details bekend qua specificaties, maar zal het Googles eigen interne code verwerken alsook workloads van klanten.

Zak Stone, Product Manager voor TensorFlow en Cloud TPU’s, legt uit aan The Register: “Initieel werd machine learning enkel gebruikt voor dingen zoals beeld- of spraakherkenning die elk hun eigen codetechnieken gebruiken. Vandaag merken we dat heel wat neurale netwerken samenkomen over een heleboel verschillende taken die veel verder gaan. Dat brengt een hogere kost mee omdat systemen groter moeten zijn en meer rekenkracht vereisen. Daarom hebben we gespecialiseerde hardware nodig voor machine learning.”

Image credit: The Register

100 petaflops

De TPU’s worden samengepakt in ‘pods’ en verbonden met het netwerk, ideaal voor cloudgebruik. Een typische pod bevat 64 toestellen, vier ASIC-chips per toestel en twee kernen per chip. Elke TPU wordt actief gekoeld met water omdat ze volgens Google ‘gigantisch warm worden’. Het spreekt voor zich dat deze chips geoptimaliseerd zijn voor Googles eigen TensorFlow software. TensorFlow is een populaire machine learning tool en tegelijk ook een van de meest actieve groepen op GitHub.

Één pod met TPU 3.0-chips kan tot 100 petaflops aan nummers verwerken, maar dat cijfer is relatief. Het is belangrijker om te weten hoe precies de wiskunde is, want brute rekenkracht is niet genoeg. Google geeft daarover voorlopig nog geen details volgens The Register.

Naast Google werkt ook Microsoft samen met Intel aan een soortgelijke oplossing, maar dan met Field Programmable Gate Array (FPGA) chips. Microsoft gelooft dat dit type chips Azure onmiddellijk naar de kopgroep duwt voor alles rond cloud en AI.

Google plant TPU 3.0-systemen uit te rollen binnen een aantal maanden. Dat neemt niet weg dat Google ook gewoon klassieke GPU’s blijft integreren in zijn cloudplatform. Het breidde pas nog zijn GPU-portfolio uit met nieuwe Nvidia Tesla V100 GPU’s.