Anthropic start initiatief voor betere benchmarks voor LLM’s

Anthropic start een initiatief voor het ontwikkelen van betere standaarden voor het evalueren van de prestaties en de impact van AI-modellen. De AI-ontwikkelaar stelt onafhankelijke derde partijen of onderzoekers geld in het vooruitzicht voor het ontwikkelen van deze standaarden.

Het nieuwe initiatief voor benchmarkstandaarden moet er voor zorgen dat er nieuwe standaarden komen voor het beter evalueren van AI-modellen zoals LLM’s. Meer specifiek gaat het volgens de AI-ontwikkelaar om nieuwe benchmarks voor het beoordelen van hun veiligheid, de mogelijkheid om geavanceerde output als hypothesevorming in goede banen te leiden en daarnaast standaarden voor infrastructuur, tools en methodes voor het ontwikkelen van deze evaluaties.

Bestaande AI-benchmarks op de schop

Met dit initiatief pleit Anthropic voor een complete verandering van alle bestaande benchmark-methodes voor het evalueren van AI-modellen. Zeker als het gaat om de veiligheid van AI door tools te ontwikkelen waarvan het hele ecosysteem kan profiteren.

Een voorbeeld is een benchmark dat beoordeelt of een AI-model in staat is kwaadaardige acties uit te voeren, zoals het uitvoeren van cyberaanvallen, het manipuleren of bedriegen van mensen, massavernietigingswapens verbeteren en meer. Dit moet uiteindelijk een waarschuwingssysteem opleveren voor mogelijk gevaarlijke modellen die de veiligheid kunnen bedreigen.

Ook wil Anthropic met dit initiatief meer benchmarks zien die zich specifiek richten op wetenschappelijk onderzoek, waarbij het belangrijk is vooroordelen uit te bannen en te kunnen interacteren in meerdere talen.

Uiteindelijk moet dit dan weer nieuwe tooling en infrastructuur opleveren die experts in staat stellen hun eigen evaluaties te maken voor specifieke taken, gevolgd door grote testtrajecten met honderden of duizenden gebruikers.

Inrichting initiatief

Het initiatief staat onder leiding van een speciaal benoemde coördinator en biedt daarnaast beurzen voor onderzoekers. Daarnaast geeft Anthropic aan dat de meest veelbelovende projecten op het terrein van de benchmarks mogelijk een investering krijgen.

De AI-ontwikkelaar geeft hierbij wel aan niet zijn eigen AI-modellen te willen bevoordelen. Het aangekondigde initiatief moet een katalysator zijn binnen de brede AI-industrie en de weg vrijmaken voor toekomstige ontwikkelingen waarbij begrijpelijke evaluaties de norm zijn.

Anthropic is niet de enige AI-ontwikkelaar die een initiatief opzet voor het ontwikkelen van nieuwe benchmarkstandaarden. Ook Sierra Technologies kondigde onlangs een nieuwe zelfontwikkelde benchmarkstandaard aan voor het evalueren van de prestaties van zogenoemde AI-agents.

Lees ook: Claude 3.5 Sonnet: Anthropic verslaat OpenAI en Google opnieuw

Top story

Priority Software gaat met aiERP all-in op artificial intelligence

Priority Software gooit de branding van zijn ERP-pakket op de schop. Het biedt voortaan aiERP, dat gebruikmaa...

Berry Zwets 17 juni 2025

Tech calendar

Anthropic start initiatief voor betere benchmarks voor LLM’s

Bestaande AI-benchmarks op de schop

Inrichting initiatief

Blijf op de hoogte, abonneer!

Achter de schermen van de Formule E strijdt TCS digitaal mee

AI werkt pas als de infrastructuur klopt

Microsoft Fabric is het nieuwe Office, maar dan voor dataplatformen

Nieuwe Alteryx-release haalt muren neer tussen clouddiensten en datasets

SAP Datasphere maakt toegang tot data eenvoudiger

Haal zoveel mogelijk waarde uit je data, van de edge tot de cloud

The AI reality tour

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Verbeter je digitale ervaringen met de Cisco AI Assistant

Verbeter de beveiliging van je servers

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE