DeepMind ontwikkelt versie van AlphaGo die volledig zelfstandig kan leren

DeepMind, de afdeling binnen Google die zich bezighoudt met de ontwikkeling van kunstmatige intelligentie, heeft een programma ontwikkeld dat zelf kennis kan creëren. Het gaat om AlphaGo Zero, een variant op AlphaGo dat helemaal zelfstandig heeft geleerd hoe het klassieke spel Go werkt.

Dat lezen we vandaag in een aankondiging van DeepMind, die de ontwikkeling bekend maakte in een blogpost en een bijbehorende wetenschappelijke paper. Kunstmatige intelligentie die ontwikkeld wordt om bepaalde spelletjes aan te leren, deden dat tot nu toe altijd op basis van door mensen gespeelde potjes. Dat is met deze versie van AlphaGo dus anders.

Zichzelf trainen

Voorgaande versies van AlphaGo werden getraind door de input van duizenden spelletjes van mensen. AlphaGo Zero sloeg die stap over en leerde het spelletje door simpelweg potjes tegen zichzelf te spelen. Dat begon volledig willekeurig en ook niet heel sterk, al wist de software na korte tijd al beter te spelen dan de meeste mensen.

Na slechts drie dagen was AlphaGo Zero al beter dan de versie van AlphaGo die voormalig wereldkampioen Lee Sedol versloeg. Na 21 dagen training wist het systeem het niveau van de Master-variant van de software te verslaan, dat ooit zestig topspelers wereldwijd versloeg en zelfs meervoudig wereldkampioen Ke Jie versloeg. Na 40 dagen was het systeem beter dan alle andere versies en “de beste Go-speler van de wereld”.

Hoe dan?

De cruciale vraag in dit geval, is hoe AlphaGo Zero zichzelf het spelletje heeft aangeleerd. DeepMind noemt de software die dat mogelijk maakte reinforcement learning. Het gaat om een neuraal netwerk dat gecombineerd is met een zoekalgoritme. Dat netwerk kent enkel de regels van het spel, maar verder niets. Tijdens het spelen wordt het netwerk steeds beter in het voorspellen van zetten, evenals de uiteindelijke winnaar van de gespeelde potjes.

Na elke gespeeld potje wordt het neurale netwerk automatisch van een update voorzien, waardoor de prestaties na elk spelletje een klein beetje verbeteren. Dat leidt tot steeds sterkere versies van AlphaGo Zero. De techniek werkt volgens DeepMind vooral ook goed doordat het “niet langer beperkt is door de grenzen van menselijke kennis”. Het kan, in de woorden van DeepMind, “leren van de sterkste speler van de wereld: AlphaGo zelf.”

Stap voorwaarts

AlphaGo Zero is een stap voorwaarts in de ontwikkeling van breed toepasbare kunstmatige intelligentie. Tegelijk kan er momenteel alleen gewerkt worden met zaken die binnen een computer gesimuleerd kunnen worden. Zodoende is de technologie nog niet toepasbaar voor autonoom rijdende voertuigen. Dat is wel waar DeepMind aan wil werken, waarvoor dit soort ontwikkelingen van groot belang zijn.