Hoe Intel de veeleisende workloads van morgen wil ondersteunen

Intel doet uit de doeken wat er gebeurt onder de motorkap van de splinternieuwe Nervana Neural Processor voor Training. De chip is een op maat gebouwde accelerator, die uitblinkt in efficiëntie, hoge geheugenbandbreedte en schaalbaarheid. Hij moet Intel zo relevant houden in een HPC-context.

Intel liet vorige maand weten dat het samen met Baidu sleutelt aan de Nervana Neural Processor voor Training, NNP-T voor de vrienden. Dat is een accelerator speciaal ontwikkeld voor de training van AI-algoritmes op basis van complexe modellen. De chip is het resultaat van Intels overname van Nervana, waar het ding zijn naam aan ontleent. Voor we kijken naar wat de NNP-T precies doet, is het echter interessant om uit te vissen waarom de chip bestaat.

Evoluerend landschap

Tot tien jaar geleden stond krachtig rekenwerk synoniem met x86-cpu’s, wat op zijn beurt een synoniem was voor Intel Xeon. Xeon-chips waren het hart van servers en supercomputers over de hele wereld. Vandaag heeft vier op de vijf HPC-systemen in de top 500 een architectuur die gebruik maakt van gpu-acceleratie. Workloads zijn de laatste jaren zodanig geëvolueerd dat parallel rekenwerk prioritair is geworden. De gpu is daar veel beter voor geschikt dan de cpu, waardoor Nvidia zich de laatste jaren kon ontpoppen van gaming-merk tot AI-specialist.

Knap lastig voor Intel natuurlijk, dat het gros van het high-end compute-werk ziet verdwijnen naar hardware uit de stal van een andere fabrikant. In Santa Clara blijven ze gelukkig niet bij de pakken zitten. Intel heeft een strategie klaar om zijn positie in zowel datacenters als supercomputers te vrijwaren met nieuwe hardware. De aanpak is tweeledig.

Dubbele aanval

Enerzijds kijkt Intel rechtstreeks naar Nvidia. Dat bedrijf plakt zijn Tesla-gpu’s aan wat in de regel nog steeds Intel-gebaseerde systemen zijn (al maakt AMD een opmars). Intel wil binnenkort naast de cpu ook de gpu-accelerator gaan leveren, en werkt daarom aan een eigen Xe-reeks van grafische kaarten. De eerste exemplaren daarvan verschijnen in 2020.

 

 

Tezelfdertijd is er een trend van alsmaar specifiekere hardware, gericht op specifieke workloads. Waar de gpu een soort generalistische aanpak voor parallel rekenwerk biedt, zorgen doelgerichte chips zoals de Tensor-processors van Google voor maximale efficiëntie in een sterk groeiende niche van trainingsworkloads. Ook daar wil Intel meespelen, en wel met Nervana.

Training en inferentie

Nervana is opnieuw een tweeledig antwoord op dit deel van het probleem. Logisch, aangezien machine learning en AI uit twee heel verschillende types workload bestaan. Een getraind algoritme uitvoeren voor bijvoorbeeld spraak- of beeldherkenning is niet zo rekenintensief. Op maat gemaakte chips doen dat heel efficiënt. Denk aan de AI-processors in bijvoorbeeld Huawei-telefoons. Getrainde algoritmes uitvoeren is inferentie. Daarvoor heeft Intel sinds begin dit jaar de 10 nm Nervana Neural Processor voor Inferentie (NNP-I) op de markt. Die is klein, licht en efficiënt.

Training is een ander verhaal. Daarbij komen we opnieuw in HPC-territorium terecht. Trainingschips moeten enorme hoeveelheden rekenwerk kunnen verzetten op basis van alsmaar groeiende datasets. Schaalbaarheid is belangrijk: de vraag naar rekenkracht blijft steeds groeien. Terwijl mag het verbruik en de kost voor het draaien van de hardware niet uit de hand lopen. Efficiëntie en verbruik wegen zwaar op de bottom line van HPC-clusterboeren. De hardware die Intel hiervoor bouwt, is de NNP-T.

Op de koffie bij de concurrentie

Een eerste opvallende karakteristiek van die chip is het productieproces. NNP-T wordt gebakken op een 16 nm-productielijn van TSMC, nota bene een concurrent van Intel. Vreemd, tenzij je weet dat Nervana zijn neurale processors, voor de overname door Intel, voor TSMC-processen ontwikkelde. Intel is slim genoeg om kwaliteit te herkennen wanneer het die ziet en laat het team voortbouwen op het gekende proces. Verder op de roadmap zal Intel wel eigen technologieën introduceren in het NNP-T-design.

 

NNP-T wordt gebakken op een 16 nm-productielijn van TSMC, nota bene een concurrent van Intel.

 

De NNP-T-chip wordt omsingeld door vier High Bandwith Memory 2 (HBM2)-dies. Dat supersnelle geheugen wordt samen met de eigenlijke chip via TSMC’s CoWoS (Chip-on-Wafer-on-Substrate)-interconnecttechnologie verbonden met een microbump-interposer. Dat zorgt voor een stevige bandbreedte. De NNP-T past niet in een socket, maar werkt via een 3325 pin-BGA-interface, naar analogie met ook de meest high-end Xeon-processors. Het gebruik van CoWoS is opvallend, opnieuw omdat Intel met EMIB een concurrerende technologie heeft.

Specificaties

Het HBM2-geheugen is verbonden via 64 serdes-lanes die elk een bandbreedte van 28 GBps ondersteunen. Op iedere NNP-T-chip zitten 24 Tensor-processors die aan het geheugen kunnen. Die hebben onderling ook nog eens toegang tot 60 MB aan gedeeld SRAM-geheugen, verspreid over de hele die. Het resultaat is een die met 27 miljard transistors, wat resulteert in een formaat van 6 cm op 6 cm. NNP-T is met andere woorden een (relatief) uit de kluiten gewassen chip.

De NNP-T krijgt een kloksnelheid van 1,1 Ghz mee, met een thermisch profiel van 150 tot 250 watt in een luchtgekoelde configuratie. Dat lijkt de deur open te zetten voor krachtigere watergekoelde configuraties, al vertelt Intel daar nog niets over.

Geheugen en samenwerking

De individuele Tensor-kernen op de chip zijn geoptimaliseerd voor snelle geheugentoegang en FP32 en BF16-rekenwerk. Dat maakt ze perfect voor trainingswerk. Even belangrijk als het binnenwerk is echter de schaalbaarheid. NNP-T’s zijn ontwikkeld om samen te werken. Volgens Intel kunnen ze perfect samenwerken, niet enkel binnen één chassis of tussen chassis onderling, maar binnen meerdere racks.

In theorie kan de architectuur overweg met 1.024 nodes, die elk acht NNP-T’s bevatten (met op hun beurt 24 Tensor-kernen). Efficiënt schalen kan volgens Tom’s Hardware met tot 256 kaarten. Daarna is het nog koffiedik kijken, maar meer is zeker mogelijk.

 

NNP-T’s zijn ontwikkeld om samen te werken.

 

Voor het einde van dit jaar wil Intel de eerste NNP-T-chips naar klanten sturen, met een initiële focus op Tier 1-cloudproviders. Tier 1-klanten krijgen bovendien rechtstreekse toegang tot de hardware. Andere gebruikers moeten tevreden zijn met kerneltoegang. Brede beschikbaarheid staat gepland voor 2020.

Theoretisch goede zet

De NNP-T is op papier een erg capabele chip, die perfect inspeelt op de noden van hedendaags HPC-rekenwerk. De grote geheugenbandbreedte, de efficiëntie en de schaalbaarheid maken dat de processor een belangrijke hoeksteen kan worden in de training van toekomstige slimme algoritmes. Intel heeft bovendien de ervaring en de connecties om zijn chip binnen te krijgen bij grote spelers.

Wat het werkelijke succes zal zijn, moeten we afwachten. Intel mag dan wel heer en meester zijn in x86, in accelerators en op maat gemaakte chips weegt die ervaring minder door. Concurrentie van Nvidia’s hardware, die zich intussen meer dan bewezen heeft, is niet min.

Gerelateerd: Met de neus tegen de muur: het einde van de grote sprongen in computerkracht