Chris Wright: AI heeft model, accelerator en cloudflexibiliteit nodig

Chris Wright: AI heeft model, accelerator en cloudflexibiliteit nodig

Red Hat herpositioneert zijn platformstrategie om tegemoet te komen aan de veranderende eisen van AI voor bedrijven. De recente overname van Neural Magic door het bedrijf is een voorbeeld van deze verschuiving en onderstreept de urgentie van een robuuste en aanpasbare AI-infrastructuur. Red Hat koos voor snelheid en diepgaande domeinexpertise en nam een team over dat bijdraagt aan het veelgebruikte open source-inferentie- en serviceproject vLLM. Zo ondersteunt het de nieuwste ontwikkeling van ‘any model, any accelerator, any cloud‘. We spraken met CTO Chris Wright over de visie, strategie en voortgang.

De recente stap maakt deel uit van een bredere evolutie in de platformstrategie van Red Hat. Wat ooit gericht was op ‘any workload, any app, anywhere’ is nu geheroriënteerd naar ‘any model, any accelerator, any cloud’. We moeten dit zien als meer dan alleen een semantische verschuiving. Het weerspiegelt het groeiende besef dat AI-workloads fundamenteel andere infrastructuurbehoeften hebben dan traditionele bedrijfsapplicaties.

“We hebben het niet meer alleen over applicaties, we hebben het over AI”, legt Wright uit. “En we trekken analogieën tussen AI als een workload en applicaties als een workload.” Door deze verandering komen ook hardwareoverwegingen op de voorgrond, met name de rol van AI-accelerators zoals GPU’s en andere gespecialiseerde chips die nu essentieel zijn voor AI-processing.

Historisch gezien heeft Red Hat zich gericht op het abstraheren van hardwarecomplexiteit door middel van software. Maar AI zet dat model op zijn kop. Krachtige AI-workloads vereisen inferentie met lage latentie, en om dat te bereiken moet de cruciale rol van hardware accelerators worden erkend.

“We hebben altijd gesproken over het mogelijk maken van verschillende soorten accelerators “, aldus Wright. “Dat is belangrijk als je nadenkt over onze rol in de infrastructuur- of platformsoftwarelaag.” Nu bedrijven flexibiliteit zoeken in zowel hun keuze van cloud- als hardwareproviders, moet Red Hat ervoor zorgen dat zijn architectuur een heterogene reeks accelerators ondersteunt. Of het nu gaat om Nvidia, AMD, Intel of een opkomende leverancier.

Navigeren in een gefragmenteerd modellandschap

Nu het ecosysteem van modellen explosief is gegroeid, worden platformproviders geconfronteerd met nieuwe complexiteit. Red Hat merkt op dat er enkele jaren geleden nog maar weinig AI-modellen beschikbaar waren onder open, gebruiksvriendelijke licenties. De toegang was grotendeels beperkt tot grote cloudplatforms die GPT-achtige modellen aanboden. Vandaag is de situatie drastisch veranderd.

“Er is een behoorlijk goede set modellen die open source zijn of licenties hebben waardoor ze bruikbaar zijn voor gebruikers”, legt Wright uit. Maar het ondersteunen van een dergelijke diversiteit brengt technische uitdagingen met zich mee. Verschillende modellen vereisen verschillende modelaanpassingen en inferentie-optimalisaties. Platforms moeten een evenwicht vinden tussen prestaties en flexibiliteit.

Naast open source-tools voor het experimenteren met en beheren van modellen, omvat de aanpak van Red Hat ook tools die modellen automatisch optimaliseren voor zijn inferentie-engines. Daardoor wordt het voor organisaties gemakkelijker om de modellen te gebruiken die zij kiezen, zonder in te boeten aan prestaties of operationele efficiëntie.

Lees ook: Red Hat legt fundament voor AI-inferencing: Server en llm-d project

Red Hat is ook overgestapt van een strategie met één model naar een strategie die is gericht op uitgebreide partnerschappen met derde partijen. Aanvankelijk bood het bedrijf helemaal geen modellen aan, maar liet het klanten hun eigen modellen meebrengen. Toen kwam Granite, de modelfamilie die in samenwerking met moederbedrijf IBM werd ontwikkeld. Maar nu ondersteunt Red Hat ook gevalideerde modellen van externe leveranciers.

“Als je teruggaat naar vorig jaar, hadden we alleen Granite in Red Hat AI. Een jaar daarvoor hadden we geen [gevalideerde] modellen”, legt Wright uit. Tegenwoordig omvat de strategie een mix: gevalideerde modellen van derden, aanvullende modellen van Hugging Face of cloudproviders, en ruimte voor klanten om hun eigen modellen aan te passen. Dit is een verschuiving in de rol van Red Hat op het gebied van AI, van een pure platformprovider naar een facilitator van een rijk en gevarieerd modelecosysteem. Het weerspiegelt de behoefte van bedrijven aan keuze, zonder gebruikers te binden aan één leverancier of framework.

Neural Magic voegt modelcompressie toe aan de mix

De overname van Neural Magic voegt geavanceerde modelcompressietechnieken toe aan het OpenShift AI-platform van Red Hat. Het kernidee is eenvoudig maar krachtig: de omvang van AI-modellen verkleinen, zodat ze sneller en goedkoper kunnen worden uitgevoerd op zowel CPU’s als GPU’s.

Het werk van Neural Magic is gebaseerd op twee belangrijke technieken: ‘sparsification’ en ‘quantization’. Sparsification verwijdert minder belangrijke gewichten (weights) uit neurale netwerken, waardoor de rekenkracht wordt verminderd zonder dat dit ten koste gaat van de nauwkeurigheid. Quantization comprimeert de modelgewichten van zeer nauwkeurige formaten (zoals 32-bits floats) tot 16-bits, 8-bits of zelfs 4-bits representaties.

“Als elk van die parameters of gewichten een bepaalde vaste grootte heeft en je die grootte verkleint, dan verklein je ook de grootte van het model”, aldus Wright. Kleinere modellen laden sneller, draaien op minder krachtige hardware en zijn goedkoper in gebruik. Dit is ideaal voor hybride en edge-omgevingen.

Oorspronkelijk richtte Neural Magic zich op voorspellende modellen en het bereiken van GPU-achtige prestaties op CPU’s. Maar toen de generatieve AI-boom eind 2022 in een stroomversnelling kwam, schakelden ze snel over. “Alle aandacht was gericht op GPU’s, en ze verlegden hun focus naar inferentie-optimalisatie voor generatieve AI”, blikt Wright terug.

Die koerswijziging sloot perfect aan bij de veranderende behoeften van Red Hat. Hoewel CPU-optimalisatie belangrijk blijft voor edge- en kostengevoelige use cases, maakt generatieve AI GPU-optimalisatie even cruciaal. De optimalisaties van Neural Magic helpen nu de inferentieprestaties op alle soorten hardware te verbeteren, in plaats van CPU’s te positioneren als alternatief voor GPU’s.

Uitbreiding van het AI-portfolio van Red Hat

De nieuwe inferentiecapaciteiten, die met de lancering van Red Hat AI Inference Server worden geleverd, versterken de bredere AI-visie van Red Hat. Deze omvat meerdere producten: Red Hat OpenShift AI, Red Hat Enterprise Linux AI en de eerder genoemde Red Hat AI Inference Server onder de paraplu van Red Hat AI. Daarnaast zijn er ingebouwde AI-mogelijkheden in de hybride cloudoplossingen van Red Hat met Red Hat Lightspeed. Dit zijn niet zomaar losse producten, maar een portfolio dat Red Hat kan uitbreiden op basis van de eisen van klanten en de markt.

Dankzij deze modulaire aanpak kunnen organisaties modellen bouwen, implementeren en onderhouden op basis van hun unieke use case, binnen hun hele infrastructuur. Dit varieert van edge-implementaties tot gecentraliseerde cloud-inferentie, met behoud van consistentie in beheer en bedrijfsvoering.

Heterogene computing wordt de norm

Red Hat voorziet een toekomst waarin heterogene computing niet langer een uitzondering is, maar de norm. Generatieve AI omvat meerdere fasen, zoals tokenisatie, contextverwerking en voorspelling, die elk verschillende prestatiekenmerken hebben. Sommige taken zijn wiskundig intensief en kunnen het beste op GPU’s worden uitgevoerd, terwijl andere taken veel geheugen vereisen en efficiënt door CPU’s kunnen worden afgehandeld.

Een gedistribueerd AI-systeem, intelligent georkestreerd, kan taken naar de optimale hardware voor elke stap leiden. Red Hat ziet een toekomst waarin zijn infrastructuur deze gemengde inferentieclusters mogelijk maakt, waardoor de efficiëntie wordt verhoogd en de operationele kosten worden verlaagd.

Open source ontmoet enterprise AI

Open source blijft de kern van de strategie van Red Hat. Het bedrijf bouwt voort op upstream-projecten en levert een bijdrage aan communities zoals vLLM en Kubeflow, waardoor innovatie transparant en toegankelijk blijft. “We weten dat de wereld veel complexer is, het is niet allemaal open source”, erkent Wright. Maar Red Hat ziet open source en propriëtaire modellen niet elkaar uitsluiten. In plaats daarvan biedt het een framework waarin beide nast elkaar kunnen bestaan, waardoor klanten keuze, controle en prestaties krijgen.

De inferentieoplossingen van Red Hat zijn geen op zichzelf staande stap. Ze vertegenwoordigen Red Hat’s bredere toewijding aan AI-infrastructuur die open, flexibel en geoptimaliseerd is voor organisaties. Terwijl Chris Wright en zijn team verdergaan, blijft het leidende principe duidelijk: ondersteuning van elk model, elke accelerator, elke cloud.