Anthropic start een initiatief voor het ontwikkelen van betere standaarden voor het evalueren van de prestaties en de impact van AI-modellen. De AI-ontwikkelaar stelt onafhankelijke derde partijen of onderzoekers geld in het vooruitzicht voor het ontwikkelen van deze standaarden.
Het nieuwe initiatief voor benchmarkstandaarden moet er voor zorgen dat er nieuwe standaarden komen voor het beter evalueren van AI-modellen zoals LLM’s. Meer specifiek gaat het volgens de AI-ontwikkelaar om nieuwe benchmarks voor het beoordelen van hun veiligheid, de mogelijkheid om geavanceerde output als hypothesevorming in goede banen te leiden en daarnaast standaarden voor infrastructuur, tools en methodes voor het ontwikkelen van deze evaluaties.
Bestaande AI-benchmarks op de schop
Met dit initiatief pleit Anthropic voor een complete verandering van alle bestaande benchmark-methodes voor het evalueren van AI-modellen. Zeker als het gaat om de veiligheid van AI door tools te ontwikkelen waarvan het hele ecosysteem kan profiteren.
Een voorbeeld is een benchmark dat beoordeelt of een AI-model in staat is kwaadaardige acties uit te voeren, zoals het uitvoeren van cyberaanvallen, het manipuleren of bedriegen van mensen, massavernietigingswapens verbeteren en meer. Dit moet uiteindelijk een waarschuwingssysteem opleveren voor mogelijk gevaarlijke modellen die de veiligheid kunnen bedreigen.
Ook wil Anthropic met dit initiatief meer benchmarks zien die zich specifiek richten op wetenschappelijk onderzoek, waarbij het belangrijk is vooroordelen uit te bannen en te kunnen interacteren in meerdere talen.
Uiteindelijk moet dit dan weer nieuwe tooling en infrastructuur opleveren die experts in staat stellen hun eigen evaluaties te maken voor specifieke taken, gevolgd door grote testtrajecten met honderden of duizenden gebruikers.
Inrichting initiatief
Het initiatief staat onder leiding van een speciaal benoemde coördinator en biedt daarnaast beurzen voor onderzoekers. Daarnaast geeft Anthropic aan dat de meest veelbelovende projecten op het terrein van de benchmarks mogelijk een investering krijgen.
De AI-ontwikkelaar geeft hierbij wel aan niet zijn eigen AI-modellen te willen bevoordelen. Het aangekondigde initiatief moet een katalysator zijn binnen de brede AI-industrie en de weg vrijmaken voor toekomstige ontwikkelingen waarbij begrijpelijke evaluaties de norm zijn.
Anthropic is niet de enige AI-ontwikkelaar die een initiatief opzet voor het ontwikkelen van nieuwe benchmarkstandaarden. Ook Sierra Technologies kondigde onlangs een nieuwe zelfontwikkelde benchmarkstandaard aan voor het evalueren van de prestaties van zogenoemde AI-agents.
Lees ook: Claude 3.5 Sonnet: Anthropic verslaat OpenAI en Google opnieuw