3 min Devices

Apple laat zien hoe LLM’s op smartphones kunnen draaien

Apple laat zien hoe LLM’s op smartphones kunnen draaien

LLM’s hebben aanzienlijke systeemeisen, waardoor alleen geavanceerde hardware momenteel grote AI-modellen aankan. Daar lijkt verandering in te komen, als we onderzoek van Apple mogen geloven.

Apple-onderzoekers wisten onlangs in het zogeheten “LLM In A Flash“-onderzoek AI-modellen met weinig systeemgeheugen te draaien. AI-inferencing, de berekeningen die een reactie van een chatbot op een prompt mogelijk maken, werd dankzij mogelijk door de karakteristieken van flash- en DRAM-geheugen optimaal te benutten.

Falcon 7B, een populair open-source model dat veel voor benchmarks wordt ingezet, was door het werk van de onderzoekers 90 procent sneller te draaien dan voorheen. AI-modellen die normaliter tweemaal het beschikbare systeemgeheugen van een apparaat opeisen, waren met de nieuwe methodes inzetbaar op lokale systemen.

Software het geheim van AI-succes

De Apple-onderzoekers benadrukken daarom dat hun bevindingen nuttig zullen zijn voor systemen met weinig geheugen, waarbij zowel de CPU als GPU berekeningen kan uitvoeren. Daar waar een model met 7 miljard parameters voorheen 14GB aan geheugen kostte, zou een iPhone 15 Pro met 8GB dankzij de nieuwe methodiek opeens wel een AI-model kunnen draaien.

Het laat zien dat er nog veel te winnen valt door slimmer om te gaan met de al beschikbare hardware. Daarnaast wordt al vaker geconstateerd dat vooruitgang in de ontwikkeling van AI met name afhankelijk is van software, iets dat Intel-VP & GM of Client AI John Rayfield eerder dit jaar deed.

Hoewel er inmiddels volop AI-hardware in ontwikkeling is voor pc’s, laptops en smartphones, zijn er nog veel hordes te nemen voordat de technologie in volwassen vorm op lokale apparatuur draait. Zo is het trainen en fine-tunen van LLM’s volledig onpraktisch voor eenieder die niet een goed uitgeruste server met meerdere GPU’s voorhanden hebben. Dan nog kan het weken duren voordat het trainingsproces voltooid is. Daarom concentreren fabrikanten zich vooralsnog op AI-acceleratoren die inferencing mogelijk maken. Zelfs dat kan immense systeemeisen met zich meebrengen.

Wel een begrenzing

Het draaien van Llama 2 70B, de grootste en meest potente variant dat Meta open-source beschikbaar heeft gesteld, vereist voor inferencing zelfs met allerlei optimalisaties een voor consumenten peperdure grafische kaart met veel geheugen. AI-modellen die voor lokale inferencing geschikt zijn, kunnen dus maar van een beperkt formaat zijn.

Toch is de onthulling van Apple veelzeggend. Immers biedt het bedrijf aanzienlijk minder systeemgeheugen in Macs en Macbooks dan vergelijkbaar geprijsde Windows-desktops en laptops. Dat zou voornamelijk zo zijn omdat Apple-chips zorgvuldiger omgaan met het beschikbare geheugen. Wel is het voor het bedrijf van groot belang om AI-berekeningen mogelijk te maken voor zoveel mogelijk gebruikers. Als we grote delen van de techindustrie mogen geloven, gaan we een toekomst tegemoet waarin nagenoeg elke applicatie AI-gedreven zal zijn. Apple dient ervoor te zorgen dat die toepassingen ook competitief op het eigen hardware-aanbod draait, zeker nu het met de zelf ontworpen M-reeks aan chips in recente jaren aanzienlijke prestatieverbeteringen heeft geleverd.