Microsoft zet in op Europese AI-taalmodellen

Microsoft zet in op Europese AI-taalmodellen

Microsoft investeert in Europese taaltechnologie met nieuwe AI-initiatieven rond meertalige modellen, opensourcedata en cultureel erfgoed. Nederland toont met GPT-NL hoe die ambitie lokaal concreet wordt gemaakt via eigen infrastructuur en trainingsdata.

Microsoft kondigde in Parijs een reeks initiatieven aan om AI beter te laten aansluiten op de taalkundige en culturele diversiteit van Europa. Via investeringen in datatoegang, cloudinfrastructuur en lokale partnerschappen wil het bedrijf de dominantie van Engelstalige AI-systemen doorbreken. Tegelijkertijd laat Nederland met het GPT-NL-project zien hoe die ambitie op nationale schaal concreet kan worden ingevuld.

De kern van Microsofts aanpak ligt in het verbeteren van meertalige representatie binnen Large Language Models (LLM’s). Terwijl het Engels wereldwijd slechts door een klein deel van de bevolking als moedertaal wordt gesproken, bestaat de helft van alle webcontent uit Engelse tekst. Dat veroorzaakt scheve verhoudingen in AI-prestaties. Dat geldt met name voor modellen die afhankelijk zijn van grootschalige webdata.

Microsoft stelt vast dat deze modellen systematisch slechter presteren in Europese talen. Denk daarbij aan het Lets, (modern) Grieks en Ests. Het bedrijf ziet daar nauwkeurigheidsverschillen van meer dan 25 procentpunten. Dit probleem wil het bedrijf aanpakken door betere toegang tot hoogwaardige, taalspecifieke data te faciliteren.

Hiervoor zet Microsoft technische en organisatorische middelen in via haar Open Innovation Center en het AI for Good Lab. Die organisaties zijn gevestigd in Straatsburg. De samenwerking met het ICube-laboratorium van de Universiteit van Straatsburg krijgt vorm in de vorm van engineeringscapaciteit, Azure-cloudcredits, en de inzet van meer dan zeventig specialisten uit Microsofts internationale netwerk. 

Meertalige datasets

De eerste stap is het beschikbaar maken van meertalige datasets uit eigen bron, waaronder tekstcorpora van GitHub en spraakcollecties. Deze worden ontsloten via samenwerking met platformen als Hugging Face en Common Crawl, waarbij annotatie in handen ligt van moedertaalsprekers uit de betreffende taalgebieden.

Vanuit technologisch perspectief richt Microsoft zich op twee concrete problemen in het trainen van LLM’s: scriptafhankelijkheid en datakwaliteit. Veel bestaande tokenizer-methodes zijn geoptimaliseerd voor het Latijnse schrift, wat leidt tot onnauwkeurige segmentatie bij niet-Latijnse karakters zoals Cyrillisch, Arabisch of het Griekse alfabet. Dit verstoort het leervermogen van modellen op die talen.

Microsoft noemt de ontwikkeling van script-onafhankelijke tokenisatie—zoals byte-level of unified token encoders—als cruciale stap om taalspecifieke bias te reduceren. Parallel daaraan ondersteunt het bedrijf synthetische data-generatie, met nadruk op privacybehoud en controle over gevoelige inhoud.

Digitalisering cultureel erfgoed

De technische inzet staat niet op zichzelf. Microsoft combineert deze modelverbetering met het digitaliseren van cultureel erfgoed. In samenwerking met onder meer het Franse Ministerie van Cultuur en het bedrijf Iconem wordt gewerkt aan digitale replicatie van monumenten zoals de Notre-Dame. Tegelijk worden datasets van nationale bibliotheken en musea ontsloten voor educatieve en AI-toepassingen. Deze initiatieven vormen de praktische uitwerking van Microsofts overtuiging dat AI-systemen niet neutraal zijn, maar in dienst moeten staan van de taal, cultuur en juridische context waarin ze worden gebruikt.

Die benadering krijgt in Nederland een eigen invulling via GPT-NL. Onder leiding van TNO, SURF en NFI ontwikkelt dit consortium een taalmodel specifiek voor de Nederlandse markt. Recent is aangekondigd dat nieuwsuitgevers en persbureau ANP meer dan 20 miljard tokens aan nieuwsdata beschikbaar stellen voor training.

Daarmee wordt het trainingscorpus in één klap verdubbeld. Het model wordt getraind op rechtmatig verkregen, auteursrechtelijk beschermde data en uitgevers ontvangen hiervoor een vergoeding, geeft de NVJ aan. Er zijn technische afspraken gemaakt om te voorkomen dat bronmateriaal herleidbaar is via modeloutputs. GPT-NL richt zich op taken als samenvatten, versimpelen en informatie-extractie, en wordt ingezet als alternatief voor generieke, internationaal getrainde modellen.