De open-source definitie van AI is er, maar data blijft discussiepunt

De open-source definitie van AI is er, maar data blijft discussiepunt

Update 28-10-2024 (Erik van Klinken): Vandaag lanceert het OSI versie 1.0 van de eigen open-source AI-definitie. Wezenlijk verschilt deze definitie niet van de Release Candidate 1-versie die hieronder wordt uitgelicht.

Oorspronkelijk bericht (10-10-2024):

Het Open Source Initiative (OSI) heeft onlangs de langverwachte eerste versie van zijn open-source AI-definitie gepresenteerd. Hoewel de definitie vrij duidelijk is, bestaat er kritiek over de wijze waarop de standaardiseringsorganisatie trainingsdata als open-source definieert.

OSI, een standaardiseringsorganisatie voor open-source definities, heeft de afgelopen twee jaar hard gewerkt aan een standaard voor open-source AI. Deze definitie, waarvan nu eindelijk de zogenoemde Release Candidate 1 (RC1)-versie is uitgebracht, moet vaststellen of een bepaald AI-model of LLM echt als open-source kan worden beschouwd.

Vier vereisten voor ‘echte’ open-source AI

In de nu uitgebrachte RC1-versie stelt OSI dat een AI-model of LLM een drietal componenten moet bevatten. In de eerste plaats de software die wordt gebruikt om de dataset samen te stellen en de training ervan te draaien, ten tweede de model-parameters en de code om inference te draaien en als derde alle data die legaal beschikbaar kan worden gemaakt.

Uiteindelijk bepalen een viertal vereisten vervolgens dat het betreffende LLM daadwerkelijk open-source is. Dit zijn de mogelijkheid om het LLM zonder toestemming voor elk doel te kunnen gebruiken, inzichtelijkheid in de werking ervan, aanpasbaarheid voor elke toepassing en deelbaarheid. Dat laatste met en zonder aanpassingen.

Naast deze onderdelen stelt de nu uitgebrachte definitie ook nog andere strenge eisen. Zo moet de complete broncode voor het trainen en draaien van de LLM’s beschikbaar zijn onder door de OSI goedgekeurde licenties. Model-parameters en weights moeten ook onder open voorwaarden worden gedeeld.

Hiermee wil de open-source standaardiseringsorganisatie voorkomen dat bedrijven hun LLM’s ‘witwassen’ door open-source te noemen zonder te voldoen aan de echte open-source standaarden. Iets kan pas open-source zijn als dat volgens de definities is die open-source stelt, aldus de OSI. Dit moet verwarring voorkomen.

Kritiek op de definitie van data

De komst van deze open-source definitie voor AI en in het bijzonder LLM’s wordt van harte toegejuicht. Toch bestaat er ook kritiek, zeker als het gaat of onder deze definitie ook de benodigde trainingsdata, als een van de drie belangrijke componenten, echt open-source moeten zijn, schrijft ZDnet.

Critici vinden dat een LLM pas echt open-source is, als ook de onderliggende data dat is. Als deze data niet helemaal openbaar is, heeft dat in hun ogen ook invloed op de volledige reproduceerbaarheid van LLM’s, de transparantie en de security.

Juridisch probleem

De open-source standaardiseringsorganisatie erkent dat de volledige openbaarheid van data een probleem is. Dit omdat het helaas niet mogelijk is volledige datasets openbaar te delen. Voor data hanteert de organisatie een aantal categorieën; open data, publieke data en niet-deelbare data. Voor iedere categorie gelden verschillende juridische regels, waardoor deze alleen kunnen worden gedeeld in de vorm die deze regelgeving daaraan stel, geeft OSI als commentaar.

In de nu uitgebrachte open-source AI-definitie stelt het daarom voor dat trainingsdata ‘voldoende gedetailleerde informatie’ moet bevatten om het LLM te kunnen trainen. Dit in plaats van een volledig (open-source) dataset.

Compromis

Eigenlijk is dit een compromis. Wet- en regelgeving zoals privacyregels of intellectueel eigendomsrecht, beperkt vaak het delen van data. De definitie die nu is gegeven, probeert daarom een balans te vinden tussen transparantie en praktische en juridische overwegingen.

OSI stelt ook dat wanneer de datapuristen hun zin krijgen, open-source AI dan abeperkt zou blijven tot een niche met alleen LLM’s die uitsluitend op basis van open data zijn getraind.

Het zijn volgens OSI ook niet alleen de datapuristen die moeilijk doen over de nieuwe Open-Source AI Definition. Ook AI-bedrijven hebben moeite met de definitie.  Dit omdat zij hun trainingsschema’s en de manier waarop zij hun LLM’s trainen en hun datasets samenstellen en filteren als geheimen beschouwen. En deze willen zij niet openbaar maken, zoals de definitie nu vereist.

Lees ook: ‘Regelgeving maakt ontwikkelen minder leuk, maar onzekerheid is nog erger’