Nieuwe Amazon EC2 aangedreven eigen ML-inferentie-chip

Amazon Web Services heeft een nieuwe Elastic Compute Cloud (EC2)-instance aangekondigd, die wordt aangedreven door een op maat gemaakte krachtige machine learning inferentie-chip. De chip zorgt voor een zeer hoge doorvoer, lage latentie en duurzame prestaties.

Volgens Andy Jassy, CEO van AWS, hebben de zogeheten Inf1-instanties een drie keer hogere doorvoer en tot 40 procent lagere kosten per inferentie, vergeleken met instances gebaseerd op Nvidia G4-chips.

AWS bouwde de Inf1-instances rond de zelf ontwikkelde Inferentia-accelerator. Inf1 is beschikbaar in vier smaaktjes met van 1 tot 16 Inferentia-accelerators aanboord, bijgestaan door Inten Xeon Scalable-processors van de tweede generatie. Het type verschilt ook hier per instance, met 4 vCPU’s voor het instapproduct en 64 voor de zwaarst beschikbare oplossing. Die laatste heeft een doorvoercapaciteit tot 100 Gigabit en telt verder nog 192 GB aan RAM-geheugen.

Organisaties die veel met machine learning doen op schaal en in productie weten volgens Jassy als geen ander dat het grootste deel van de kosten in voorspellingen gaan zitten, aldus ZDnet.

Machine learning, dat trainingsalgoritmen en gevolgtrekkingen omvat, is steeds vaker een integraal onderdeel van een applicatie. Al komt het met een aantal unieke eisen. Bij inferentie wordt een getraind machine learning-model daadwerkelijk in gebruik genomen en kan eenvoudig het overgrote deel van de kosten voor een machine-leersysteem verklaren.

Alexa en zelfrijdende auto’s voeren inferentie uit

Als Amazon’s spraakassistent Alexa een opdracht van een gebruiker interpreteert, voert deze ‘inferentie’ uit. Dat geldt bijvoorbeeld ook voor een zelfrijdende auto. Steeds wanneer een machine learning-model wordt getraind om objectherkenning voor een zelfrijdende auto uit te voeren en een object op de weg ziet, voert het inferentie uit.

In beide scenario’s speelt latentie in verschillende mate een grote rol. Hoe sneller Alexa een opdracht interpreteert, hoe sneller het kan reageren. Hoe sneller een zelfrijdende auto een object op de weg identificeert, hoe sneller een botsing kan worden voorkomen. Daar kan de nieuwe, krachtige machine learning inferentie-chip nu voor zorgen.