Microsoft breidt zijn Phi-lijn van open-source taalmodellen uit met twee nieuwe algoritmen die zijn geoptimaliseerd voor multimodale verwerking en hardware-efficiëntie.
Dit blijkt uit een bericht van SiliconANGLE. De eerste toevoeging is de tekst-only Phi-4-mini. Het tweede nieuwe model, Phi-4-multimodaal, is een verbeterde versie van Phi-4-mini. Die kan ook visuele en audio-invoer verwerken. Microsoft stelt dat beide modellen aanzienlijk beter presteren dan vergelijkbare alternatieven bij bepaalde taken.
Phi-4-mini bevat 3,8 miljard parameters. Hierdoor is het compact genoeg om op mobiele apparaten te draaien. De basis is de transformer-neurale netwerkarchitectuur, zoals dat bij de meeste grote taalmodellen (LLM’s) het geval is.
Een standaard transformer-model analyseert de tekst voor en na een woord om de betekenis ervan te begrijpen. Volgens Microsoft is Phi-4-mini gebaseerd op een versie van deze architectuur, een zogenaamde decoder-only transformer. Die hanteert een andere aanpak. Dergelijke modellen analyseren alleen de tekst die voorafgaat aan een woord om de betekenis ervan te bepalen. Dit vermindert het hardwaregebruik. En het versnelt de verwerkingstijd.
Phi-4-mini maakt ook gebruik van een tweede prestatieoptimalisatietechniek, genaamd grouped query attention (GQA). Dit verlaagt het hardwaregebruik van het aandachtsmechanisme van het algoritme. Het aandachtsmechanisme van een taalmodel helpt bij het bepalen welke gegevenspunten het meest relevant zijn voor een bepaalde verwerkingstaak.
Sterk in complex redeneren
Phi-4-mini kan tekst genereren, bestaande documenten vertalen en acties uitvoeren in externe toepassingen. Volgens Microsoft blinkt het vooral uit in wiskundige en programmeertaken die complex redeneren vereisen. Uit een reeks interne benchmarktests concludeerde het bedrijf dat Phi-4-mini dergelijke taken met aanzienlijk betere nauwkeurigheid uitvoert dan verschillende taalmodellen van vergelijkbare omvang.
Het tweede nieuwe model dat Microsoft heeft uitgebracht, Phi-4-multimodaal, is een verbeterde versie van Phi-4-mini met 5,6 miljard parameters. Dit model kan niet alleen tekst verwerken, maar ook afbeeldingen, audio en video. Microsoft heeft het model getraind met een nieuwe techniek genaamd Mixture of LoRAs.
Het aanpassen van een AI-model aan een nieuwe taak vereist meestal het wijzigen van de configuratie-instellingen die bepalen hoe het model gegevens verwerkt. Dit proces kan duur en tijdrovend zijn. Daarom gebruiken onderzoekers vaak een alternatieve aanpak genaamd LoRA (Low-Rank Adaptation). Met LoRA kan een model een nieuwe taak uitvoeren door een klein aantal nieuwe, taak-geoptimaliseerde beoordelingscriteria toe te voegen.
Microsofts Mixture of LoRA-methode past ditzelfde concept toe op multimodale verwerking. Om Phi-4-multimodaal te creëren, heeft het bedrijf Phi-4-mini uitgebreid met een optimalistie voor de verwerking van audio- en visuele gegevens. Volgens Microsoft vermindert deze techniek enkele van de nadelen die gepaard gaan met andere benaderingen van multimodale modellen.
Test met meer dan zes benchmarks
Microsoft testte de mogelijkheden van Phi-4-multimodaal met meer dan zes visuele data-verwerkingsbenchmarks. Het model behaalde een gemiddelde score van 72, slechts één punt lager dan OpenAI’s GPT-4. Google LLC’s Gemini Flash 2.0, een geavanceerd groot taalmodel dat in december werd gelanceerd, scoorde 74,3.
Phi-4-multimodaal presteerde nog beter in een reeks benchmarktests waarbij zowel visuele als audio-invoer werd gebruikt. Volgens Microsoft presteerde het model “met een ruime marge” beter dan Gemini-2.0 Flash. Phi-4-multimodaal overtrof ook InternOmni, een open-source LLM die specifiek is ontworpen voor multimodale verwerking en een hoger aantal parameters heeft.
Microsoft zal Phi-4-multimodaal en Phi-4-mini beschikbaar maken op Hugging Face onder een MIT-licentie, die commercieel gebruik toestaat.