IBM komt met nieuwe dataset om vooroordelen AI aan te pakken

De afgelopen tijd is gebleken dat kunstmatige intelligentie bevooroordeeld kan zijn. Dat heeft onder meer te maken met de dataset die gebruikt wordt bij de ontwikkeling van AI. IBM hoopt dat zijn nieuwe database met meer dan een miljoen gezichten de ‘echte’ wereld beter reflecteert en helpt die bevooroordeeldheid terug te dringen.

Gezichtsherkenning wordt gebruikt voor allerlei doelen. Denk aan het ontgrendelen van je telefoon, maar soms ook om je voordeur te openen en in te schatten wat je gemoedstoestand is. Maar zelfs de best ontwikkelde gezichtsherkenning slaagt niet in de meest eenvoudige test om mensen met een donkere huidskleur te herkennen. Het probleem is breder dan alleen de dataset waarmee gewerkt wordt, maar heeft daar zeker mee te maken.

Miljoen gezichten

Om die reden introduceert IBM volgens TechCrunch nu een nieuwe dataset, met een miljoen gezichten. Die set is zo divers mogelijk gemaakt en beslaat mensen van verschillende afkomsten, maar ook leeftijden. Gezichtsherkenning heeft het soms ook moeilijk om oudere mensen te herkennen.

“Om gezichtsherkenning te laten werken zoals wenselijk is – zowel om accuraat als eerlijk te zijn – moet trainingsdata voldoende balans bieden. De datasets waarmee we de AI trainen moet groot en divers genoeg zijn om de vele manieren waarop gezichten verschillen te leren begrijpen. De afbeeldingen moeten de diversiteit van gezichtseigenschappen die we over heel de wereld zien reflecteren.”

IBM heeft de gezichten uit een honderd miljoen afbeeldingen tellende dataset van Flickr Creative Commons gehaald. Om dat te doen, heeft IBM een andere AI gebouwd die simpelweg zocht naar gezichten in de database. Die gezichten werden uitgesneden en vervolgens geanalyseerd. Elk gezicht werd exact omschreven. Denk aan details over de afstand tussen ogen, hoe groot het voorhoofd is en meer. Die informatie werd gebruikt om een ‘gezichtsafdruk’ te maken die het systeem kon gebruiken. Aan de hand daarvan worden gezichten aan elkaar gekoppeld.

Het team van IBM heeft, om die diversiteit zo groot mogelijk te maken, ook andere factoren laten meewegen dan alleen afmetingen. Er is dus ook gekeken naar huidskleur en geslacht. Maar doordat geslacht niet binair is, is besloten om individuen op een schaal van feminien en masculien te plaatsen. Iedereen krijgt een waardering tussen de 0 en 1, op basis waarvan IBM hoopt ook non binaire mensen aan te spreken. Tot slot kijkt de boel nog naar leeftijd, waarvoor IBM op menselijk oordeel vertrouwt.

Overigens kan IBM niet garanderen dat zijn dataset nu wel volledig representatief is. Wel denkt het dat dit een goed uitgangspunt is.