Google Cloud introduceert de preview van de A4X virtuele machines. Ze worden ondersteund door de Nvidia GB200 NVL72, een configuratie van 72 Blackwell-GPU’s. Dit moet de instances geschikt maken voor het trainen en inzetten van de volgende generatie AI-modellen.
Google Cloud zet hiermee een forse stap in het beschikbaar maken van krachtigere AI-infrastructuur. De nieuwe A4X-vm’s bieden meer dan 1 exaflop rekenkracht per GB200 NVL72-systeem, wat resulteert in een viervoudige verbetering in LLM-trainingssnelheid vergeleken met de A3-vm’s met NVIDIA H100 GPU’s.
De GB200 NVL72-configuratie moet zorgen voor zeer lage latency bij multimodale verwerking. Bij dergelijke requests neemt AI normaliter meer tijd in beslag. Daarnaast bevatten de A4X-vm’s de Nvidia Grace CPU’s. Deze op maat gemaakte Arm-chips beschikken over NVLink chip-to-chip-connecties met de Blackwell-GPU’s. Dit optimaliseert de offloading en stemt de rekenkracht beter af op de behoeften van AI-training.
Architectuur voor AI-workloads
De 72 Blackwell-GPU’s functioneren als één geünificeerde rekeneenheid, verzekert Google, met gedeeld geheugen. Dit maakt het mogelijk om complexe AI-modellen efficiënter te trainen en in te zetten. Voor networking baseert Google Cloud zich op RDMA over Converged Ethernet, waarmee NVL72-racks worden gecombineerd in enkele clusters van tienduizenden GPU’s. Dit moet vooral het efficiënte schalen van complexe modellen mogelijk maken.
De A4X virtuele machines zijn volledig geïntegreerd met Google’s bestaande AI-oplossingen, waaronder Cloud Storage FUSE, Google Kubernetes Engine (GKE) en Vertex AI Platform. Ze maken gebruik van Google’s derde generatie vloeistofkoeling, wat essentieel is voor het behouden van maximale rekenprestaties.